Μηχανική μάθηση βασισμένη σε στιγμιότυπα μέσω τεχνικών μείωσης δεδομένων για μη μετρικούς χώρους (Master thesis)

Φωτιάδης, Γεώργιος


Full metadata record
DC FieldValueLanguage
dc.contributor.authorΦωτιάδης, Γεώργιοςel
dc.date.accessioned2024-07-19T10:23:03Z-
dc.date.available2024-07-19T10:23:03Z-
dc.identifier.urihttp://195.251.240.227/jspui/handle/123456789/16791-
dc.descriptionΜεταπτυχιακή εργασία - Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρικών Συστημάτων, 2023 (α/α 14115)el
dc.rightsDefault License-
dc.subjectData Reduction Techniquesel
dc.subjectτεχνικές μείωσης του πληθυσμούel
dc.subjectκατηγοριοποιητής εγγύτερων γειτόνωνel
dc.subjectInstance-Based Learningel
dc.subjectμετρικοί χώροιel
dc.subjectμη μετρικοί χώροι
dc.subjectHamming απόστασηel
dc.titleΜηχανική μάθηση βασισμένη σε στιγμιότυπα μέσω τεχνικών μείωσης δεδομένων για μη μετρικούς χώρουςel
heal.typemasterThesis-
heal.type.enMaster thesisen
heal.generalDescriptionΜεταπτυχιακή εργασίαel
heal.identifier.secondary14115-
heal.dateAvailable2024-07-19T10:24:03Z-
heal.languageel-
heal.accessfree-
heal.recordProviderΣχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρικών Συστημάτωνel
heal.publicationDate2023-11-01-
heal.bibliographicCitationΦωτιάδης, Γ. (2023). Μηχανική μάθηση βασισμένη σε στιγμιότυπα μέσω τεχνικών μείωσης δεδομένων για μη μετρικούς χώρους ( Μεταπτυχιακή εργασία). ΔΙΠΑΕ.el
heal.abstractΣτην εποχή της πληροφορίας και της ταχύτατης ανάπτυξης του Διαδικτύου, η διαχείριση και επεξεργασία μεγάλου όγκου δεδομένων εκπαίδευσης αποκτά όλο και μεγαλύτερη σημασία. Ο μεγάλος όγκος δεδομένων, συνήθως δεν είναι εφικτό να χρησιμοποιηθεί από τους αλγόριθμους κατηγοριοποίησης εξαιτίας του υψηλού υπολογιστικού κόστους καθώς και των υψηλών απαιτήσεων αποθήκευσης στη μνήμη. Συνεπώς, τα δεδομένα αυτά προ-επεξεργάζονται από τεχνικές μείωσης του πληθυσμού των δεδομένων εκπαίδευσης (Data Reduction Techniques) με στόχο τη μείωση του υπολογιστικού κόστους αλλά και των απαιτήσεων σε μνήμη. Οι περισσότερες τεχνικές μείωσης του πληθυσμού των δεδομένων που έχουν προταθεί και είναι διαθέσιμες στη βιβλιογραφία αφορούν κυρίως τον κατηγοριοποιητή των κ εγγύτερων γειτόνων (k-Nearest Neighbor classifier). Αυτός ο κατηγοριοποιητής αποτελεί την πιο απλή μέθοδο μηχανικής μάθησης και λειτουργεί μέσω μάθησης βασισμένης σε στιγμιότυπα (instance-based learning). Στις περισσότερες πρακτικές εφαρμογές της επιστήμης των δεδομένων, τα σύνολα δεδομένων θα περιέχουν κατηγορικές μεταβλητές. Ωστόσο, ο κατηγοριοποιητής k-NN δεν μπορεί να διαχειριστεί τα κατηγορικά δεδομένα. Επομένως, πριν από την επεξεργασία από μια τεχνική μείωσης του πληθυσμού των δεδομένων, είναι απαραίτητη η εφαρμογή ενός ακόμη βήματος προ-επεξεργασίας για την μετατροπή των κατηγορικών δεδομένων σε αριθμητικά δεδομένα. Στη βιβλιογραφία, συναντάμε διάφορες τέτοιες μεθόδους και η παρούσα εργασία παρουσιάζει τις σημαντικότερες. Εντούτοις, η εφαρμογή ενός ακόμη βήματος προ-επεξεργασίας είναι ένα αρνητικό σημείο, επειδή προσθέτει υπολογιστικό κόστος. Αυτό το σημείο αποτελεί το κίνητρο εκπόνησης της παρούσας διπλωματικής εργασίας. Ο σκοπός της παρούσας εργασίας είναι να αντιμετωπίσει την πρόκληση της αποτελεσματικής κατηγοριοποίησης δεδομένων που περιέχουν κατηγορικά χαρακτηριστικά, χωρίς να απαιτείται το επιπρόσθετο βήμα προ-επεξεργασίας για την μετατροπή τους. Η μεθοδολογία που χρησιμοποιήθηκε περιλαμβάνει την ανάπτυξη νέων παραλλαγών του αλγορίθμου CNN-rule (Condensed Nearest Neighbour rule), οι οποίες χρησιμοποιούν μετρικές απόστασης για μη μετρικούς χώρους. Εκτελώντας πειράματα σε 8 σύνολα δεδομένων, συγκρίθηκαν οι τρείς παραλλαγές του αλγορίθμου CNN-rule με τον αλγόριθμο των κ εγγύτερων γειτόνων χωρίς μείωση του πληθυσμού των δεδομένων, αξιολογώντας την ακρίβεια (accuracy) και το ποσοστό μείωσης (reduction rate). Τα πειραματικά αποτελέσματα δείχνουν αξιοσημείωτη απόδοση και για τις τρεις παραλλαγές του αλγορίθμου CNN-rule.el
heal.abstractIn the era of information and rapid internet growth, the management and processing of large volumes of training data becomes increasingly important. Handling such large datasets is not feasible by classification algorithms due to high computational costs and memory storage requirements. Therefore, this data is pre-processed using Data Reduction Techniques to reduce computational costs and the memory storage. Most data reduction techniques which have been proposed and are available in the literature primarily focus on the k-Nearest Neighbor (k-NN) classifier. The k-NN classifier is the simplest instance-based learning method in machine learning. In most practical data science applications, datasets contain categorical variables. However, the k-NN classifier cannot handle categorical data, thus a preprocessing step is necessary to convert categorical data into numerical data. Various methods for this purpose can be found in the literature, and this work presents the most important ones. However, applying an additional preprocessing step is a drawback because it adds computational cost. This issue is the motivation behind this thesis. The purpose of this thesis is to address the challenge of effective classification of data containing categorical features without requiring additional preprocessing steps for their conversion. The methodology used includes the development of new variations of the CNN-rule algorithm (Condensed Nearest Neighbor rule), which use distance metrics for non-metric spaces. By conducting experiments on eight datasets, the three variations of the CNN-rule algorithm were compared to the k-Nearest Neighbor algorithm without data reduction, evaluating accuracy and reduction rate. The experimental results demonstrate remarkable performance in all three variations of the CNN-rule algorithm.en
heal.advisorNameΟυγιάρογλου, Στέφανοςel
heal.committeeMemberNameΟυγιάρογλου, Στέφανοςel
heal.academicPublisherΣχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρικών Συστημάτωνel
heal.academicPublisherIDihu-
heal.numberOfPages122 σελ.-
heal.fullTextAvailabilitytrue-
heal.type.elΜεταπτυχιακή εργασίαel
Appears in Collections:Μεταπτυχιακές Διατριβές

Files in This Item:
File Description SizeFormat 
Master_Thesis_IHU_Fotiadis_Georgios.pdfΜεταπτυχιακή εργασία 1.43 MBAdobe PDFView/Open



 Please use this identifier to cite or link to this item:
http://195.251.240.227/jspui/handle/123456789/16791
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.