Εντοπισμός Spam σε διαδικτυακές σελίδες με χρήση μεθόδων μηχανικής μάθησης (Bachelor thesis)

Γραβάνης, Γεώργιος


Full metadata record
DC FieldValueLanguage
dc.contributor.authorΓραβάνης, Γεώργιοςel
dc.date.accessioned2021-03-02T20:17:18Z-
dc.date.available2021-03-02T20:17:18Z-
dc.identifier.urihttp://195.251.240.227/jspui/handle/123456789/13237-
dc.descriptionμεταπτυχιακή εργασία -- ΣΤΕΦ -- Τμήμα Πληροφορικής, ΠΜΣ : Ευφυείς Τεχνολογίες Διαδικτύου, 2016 (α/α8065)el
dc.rightsDefault License-
dc.subjectΜηχανική μάθησηel
dc.subjectWeb spamen
dc.subjectSVMen
dc.subjectSupport Vector Machinesen
dc.subjectNaïve Bayesen
dc.subjectCNNen
dc.subjectConvolutional Neural Networken
dc.subjectContent Based Featuresen
dc.titleΕντοπισμός Spam σε διαδικτυακές σελίδες με χρήση μεθόδων μηχανικής μάθησηςel
heal.typebachelorThesis-
heal.type.enBachelor thesisen
heal.generalDescriptionμεταπτυχιακή εργασίαel
heal.classificationMachine learningen
heal.classificationΜηχανική μάθησηel
heal.classificationData protectionen
heal.classificationΠροστασία δεδομένωνel
heal.classificationSpam filtering (Electronic mail)en
heal.classificationΦιλτράρισμα σπαμ (Ηλεκτρονικό ταχυδρομείο)el
heal.identifier.secondary8065-
heal.languageel-
heal.accessaccount-
heal.recordProviderΣχολή Τεχνολογικών Εφαρμογών - Τμήμα Πληροφορικής - Μεταπτυχιακό Πρόγραμμα Σπουδών Ευφυείς Τεχνολογίες Διαδικτύου - Web Intelligenceel
heal.publicationDate2016-10-21-
heal.bibliographicCitationΓραβάνης, Γ. (2016). Εντοπισμός Spam σε διαδικτυακές σελίδες με χρήση μεθόδων μηχανικής μάθησης (μεταπτυχιακή εργασία). Αλεξάνδρειο ΤΕΙ Θεσσαλονίκηςel
heal.abstractΣκοπός της συγκεκριμένης εργασίας είναι η μελέτη των δυνατοτήτων εφαρμογής των κλασικών αλγορίθμων μηχανικής μάθησης SVM και Naïve Bayes για την ταξινόμηση διαδικτυακών σελίδων με spam περιεχόμενο. Επιπλέον έγινε εφαρμογή ταξινόμησης με χρήση Νευρωνικού Συνελικτικού Δικτύου (Convolutional Neural Network – CNN) και συγκεκριμένα του δικτύου LeNet5 όπως αυτό προτείνεται από τον Yann LeCun. Η εφαρμογή των αλγορίθμων έγινε στην συλλογή Web Spam Challenge 2007. Η μετρική που χρησιμοποιήθηκε για την σύγκριση των αποτελεσμάτων είναι η Area Under the Curve με τον αλγόριθμο CNN να πετυχαίνει την καλύτερη τιμή AUC score = 78%. Ο κώδικας που αναπτύχθηκε και χρησιμοποιήθηκε για την υλοποίηση της εργασίας είναι γραμμένος στη γλώσσα προγραμματισμού Python ενώ το περιβάλλον που χρησιμοποιήθηκε είναι το Eclipse. Οι αλγόριθμοι SVM, Naïve Bayes καθώς και συμπληρωματικά εργαλεία για την επεξεργασία της συλλογής είναι μέθοδοι οι οποίες χρησιμοποιήθηκαν αυτούσιες όπως δίνονται στην βιβλιοθήκη Scikit ενώ για την υλοποίηση του CNN χρησιμοποιήθηκε και η βιβλιοθήκη Theano. Επιπλέον συντάχθηκαν μέθοδοι όπως η balance_dataset() και η softmax(), οι οποίες χρησιμοποιήθηκαν για την προ-επεξεργασία των δεδομένων. Τέλος γίνεται μία ανασκόπηση σε συλλογές που αφορούν την αναγνώριση ιστοσελίδων με spam περιεχόμενο.el
heal.abstractMain target of this thesis is the implementation of machine learning algorithms in order to classify whether a web page has spam content or not. The algorithms we are going to use for this study are Support Vector Machines (SVM’s) in combination with linear, Gaussian and polynomial kernel and Naïve Bayes. Furthermore, we are trying a Convolutional Neural Network implementation (LeNet5) as it is proposed by Yann LeCun. The metric we use is Area Under the Curve with the best method in our case to score 78%. The code is written in Python and the environment we use is Eclipse Mars. SVM’s and Naïve Bayes functions can be found in Scikit library. Moreover, in order to achieve best results we wrote some methods for data preprocessing such as balance_dataset() and softmax(). Finally, in this thesis you can find a small review for collections about web spam.en
heal.advisorNameΔιαμαντάρας, Κωνσταντίνοςel
heal.committeeMemberNameΔιαμαντάρας, Κωνσταντίνοςel
heal.academicPublisherΜηχανικών Πληροφορικής / ΠΜΣ Ευφυείς Τεχνολογίες Διαδικτύουel
heal.academicPublisherIDteithe-
heal.numberOfPages110σ.-
heal.fullTextAvailabilityfalse-
heal.type.elΠροπτυχιακή/Διπλωματική εργασίαel
Appears in Collections:Μεταπτυχιακές Διατριβές

Files in This Item:
There are no files associated with this item.



 Please use this identifier to cite or link to this item:
http://195.251.240.227/jspui/handle/123456789/13237
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.