Κατάταξη των ιστοσελίδων βασισμένη στη σημαντικότητα των υπερσυνδέσμων (Bachelor thesis)
Μαντζουράνης, Μιχάλης
One of the most important challenges that search engines are facing is the evaluation and ranking of the web pages being retrieved for each query. Many algorithms, such as PageRank and Weighted PageRank have been developed for this purpose. The first and most significant one, is being used by Google Search and its concept is that each web page conveys its grade to its links equivalently. On the contrary, the second one computes the percentage of its grade to be conveyed based on the popularity of pages. In this paper, a page ranking method based on the significance of hyperlinks is proposed and implemented experimentally. Each link has a set of attributes, such as its position and size that can differentiate it from the other links of its containing page, thus giving it a specific value. The purpose of the proposed method is to approximate the typical user’s behavior, correlating the probability to follow a link to the link’s relative value. In order to implement this method, there was developed a web bot that collected and stored a sufficient amount of web pages and the attributes of their links. Subsequently, there were applied four algorithms based on the proposed method, along with PageRank και Weighted PageRank. The experiments showcased that this method’s results are clearly closer to PageRank than those of Weighted PageRank.
Institution and School/Department of submitter: | Σχολή Τεχνολογικών Εφαρμογών - Τμήμα Πληροφορικής - Μεταπτυχιακό Πρόγραμμα Σπουδών Ευφυείς Τεχνολογίες Διαδικτύου |
Subject classification: | Web sites -- Ratings and rankings Ιστότοποι -- Αξιολογήσεις και κατατάξεις Web usage mining Εξόρυξη χρήσης Ιστού |
Keywords: | κατάταξη ιστοσελίδων;εξόρυξη Ιστού;web bot;web usability;PageRank;web mining |
Description: | μεταπτυχιακή εργασία -- ΣΤΕΦ -- ΠΜΣ: Ευφυείς Τεχνολογίες Διαδικτύου, 2016 (α/α8070) |
URI: | http://195.251.240.227/jspui/handle/123456789/13230 |
Item type: | bachelorThesis |
General Description / Additional Comments: | μεταπτυχιακή εργασία |
Subject classification: | Web sites -- Ratings and rankings Ιστότοποι -- Αξιολογήσεις και κατατάξεις Web usage mining Εξόρυξη χρήσης Ιστού |
Item language: | el |
Item access scheme: | account |
Institution and School/Department of submitter: | Σχολή Τεχνολογικών Εφαρμογών - Τμήμα Πληροφορικής - Μεταπτυχιακό Πρόγραμμα Σπουδών Ευφυείς Τεχνολογίες Διαδικτύου |
Publication date: | 2016-10-20 |
Bibliographic citation: | Μαντζουράνης, Μ. (2016). Κατάταξη των Ιστοσελίδων Βασισμένη στη Σημαντικότητα των Υπερσυνδέσμων (μεταπτυχιακή εργασία). Αλεξάνδρειο ΤΕΙ Θεσσαλονίκης |
Abstract: | Μία από τις σημαντικότερες προκλήσεις που έχουν να αντιμετωπίσουν οι μηχανές αναζήτησης ιστοσελίδων είναι η αξιολόγηση και η κατάταξη των διαδικτυακών εγγράφων που ανακτώνται μετά από τα ερωτήματα των χρηστών. Για το σκοπό αυτό έχουν αναπτυχθεί ή προταθεί διάφοροι αλγόριθμοι, όπως ο PageRank και ο Weighted PageRank. Ο πρώτος και σημαντικότερος εφαρμόζεται από τη μηχανή της Google και κεντρική ιδέα του είναι ότι η κάθε ιστοσελίδα μεταβιβάζει ισόποσα το βαθμό της στους συνδέσμους της. Αντίθετα, ο δεύτερος υπολογίζει το ποσοστό του βαθμού που θα μεταβιβαστεί με βάση τη δημοφιλία των σελίδων. Στην παρούσα εργασία προτείνεται και υλοποιείται πειραματικά μια μέθοδος κατάταξης ιστοσελίδων βασισμένη στη σημαντικότητα των συνδέσμων. Ο κάθε σύνδεσμος έχει συγκεκριμένα χαρακτηριστικά, όπως η θέση και το μέγεθός του, τα οποία τον διαφοροποιούν από τους υπόλοιπους συνδέσμους της σελίδας προσδίδοντάς του διαφορετική αξία. Σκοπός της προτεινόμενης μεθόδου είναι να προσεγγίσει τη συμπεριφορά του τυπικού χρήστη, συνδέοντας την πιθανότητα να ακολουθήσει ένα σύνδεσμο με την σχετική αξία του συνδέσμου. Για την εφαρμογή της μεθόδου δημιουργήθηκε ένα web bot που συνέλλεξε και αποθήκευσε έναν ικανό αριθμό ιστοσελίδων, μαζί με τα χαρακτηριστικά των συνδέσμων τους. Στη συνέχεια, εφαρμόστηκαν τέσσερεις αλγόριθμοι βασισμένοι στην προτεινόμενη μέθοδο, καθώς και οι PageRank και Weighted PageRank. Τα πειράματα έδειξαν ότι τα αποτελέσματα της μεθόδου αυτής κινούνται σαφώς πιο κοντά στον PageRank από ότι αυτά του Weighted PageRank. One of the most important challenges that search engines are facing is the evaluation and ranking of the web pages being retrieved for each query. Many algorithms, such as PageRank and Weighted PageRank have been developed for this purpose. The first and most significant one, is being used by Google Search and its concept is that each web page conveys its grade to its links equivalently. On the contrary, the second one computes the percentage of its grade to be conveyed based on the popularity of pages. In this paper, a page ranking method based on the significance of hyperlinks is proposed and implemented experimentally. Each link has a set of attributes, such as its position and size that can differentiate it from the other links of its containing page, thus giving it a specific value. The purpose of the proposed method is to approximate the typical user’s behavior, correlating the probability to follow a link to the link’s relative value. In order to implement this method, there was developed a web bot that collected and stored a sufficient amount of web pages and the attributes of their links. Subsequently, there were applied four algorithms based on the proposed method, along with PageRank και Weighted PageRank. The experiments showcased that this method’s results are clearly closer to PageRank than those of Weighted PageRank. |
Advisor name: | Σιδηρόπουλος, Αντώνης |
Examining committee: | Σιδηρόπουλος, Αντώνης Διαμαντάρας, Κωνσταντίνος Αδαμίδης, Παναγιώτης |
Publishing department/division: | Μηχανικών Πληροφορικής / ΠΜΣ Ευφυείς Τεχνολογίες Διαδικτύου |
Publishing institution: | teithe |
Number of pages: | 91σ. |
Appears in Collections: | Μεταπτυχιακές Διατριβές |
Files in This Item:
There are no files associated with this item.
Please use this identifier to cite or link to this item:
This item is a favorite for 0 people.
http://195.251.240.227/jspui/handle/123456789/13230
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.