Μηχανική μάθηση βασισμένη σε στιγμιότυπα μέσω τεχνικών μείωσης δεδομένων για μη μετρικούς χώρους (Master thesis)
Φωτιάδης, Γεώργιος
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Φωτιάδης, Γεώργιος | el |
dc.date.accessioned | 2024-07-19T10:23:03Z | - |
dc.date.available | 2024-07-19T10:23:03Z | - |
dc.identifier.uri | http://195.251.240.227/jspui/handle/123456789/16791 | - |
dc.description | Μεταπτυχιακή εργασία - Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρικών Συστημάτων, 2023 (α/α 14115) | el |
dc.rights | Default License | - |
dc.subject | Data Reduction Techniques | el |
dc.subject | τεχνικές μείωσης του πληθυσμού | el |
dc.subject | κατηγοριοποιητής εγγύτερων γειτόνων | el |
dc.subject | Instance-Based Learning | el |
dc.subject | μετρικοί χώροι | el |
dc.subject | μη μετρικοί χώροι | |
dc.subject | Hamming απόσταση | el |
dc.title | Μηχανική μάθηση βασισμένη σε στιγμιότυπα μέσω τεχνικών μείωσης δεδομένων για μη μετρικούς χώρους | el |
heal.type | masterThesis | - |
heal.type.en | Master thesis | en |
heal.generalDescription | Μεταπτυχιακή εργασία | el |
heal.identifier.secondary | 14115 | - |
heal.dateAvailable | 2024-07-19T10:24:03Z | - |
heal.language | el | - |
heal.access | free | - |
heal.recordProvider | Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρικών Συστημάτων | el |
heal.publicationDate | 2023-11-01 | - |
heal.bibliographicCitation | Φωτιάδης, Γ. (2023). Μηχανική μάθηση βασισμένη σε στιγμιότυπα μέσω τεχνικών μείωσης δεδομένων για μη μετρικούς χώρους ( Μεταπτυχιακή εργασία). ΔΙΠΑΕ. | el |
heal.abstract | Στην εποχή της πληροφορίας και της ταχύτατης ανάπτυξης του Διαδικτύου, η διαχείριση και επεξεργασία μεγάλου όγκου δεδομένων εκπαίδευσης αποκτά όλο και μεγαλύτερη σημασία. Ο μεγάλος όγκος δεδομένων, συνήθως δεν είναι εφικτό να χρησιμοποιηθεί από τους αλγόριθμους κατηγοριοποίησης εξαιτίας του υψηλού υπολογιστικού κόστους καθώς και των υψηλών απαιτήσεων αποθήκευσης στη μνήμη. Συνεπώς, τα δεδομένα αυτά προ-επεξεργάζονται από τεχνικές μείωσης του πληθυσμού των δεδομένων εκπαίδευσης (Data Reduction Techniques) με στόχο τη μείωση του υπολογιστικού κόστους αλλά και των απαιτήσεων σε μνήμη. Οι περισσότερες τεχνικές μείωσης του πληθυσμού των δεδομένων που έχουν προταθεί και είναι διαθέσιμες στη βιβλιογραφία αφορούν κυρίως τον κατηγοριοποιητή των κ εγγύτερων γειτόνων (k-Nearest Neighbor classifier). Αυτός ο κατηγοριοποιητής αποτελεί την πιο απλή μέθοδο μηχανικής μάθησης και λειτουργεί μέσω μάθησης βασισμένης σε στιγμιότυπα (instance-based learning). Στις περισσότερες πρακτικές εφαρμογές της επιστήμης των δεδομένων, τα σύνολα δεδομένων θα περιέχουν κατηγορικές μεταβλητές. Ωστόσο, ο κατηγοριοποιητής k-NN δεν μπορεί να διαχειριστεί τα κατηγορικά δεδομένα. Επομένως, πριν από την επεξεργασία από μια τεχνική μείωσης του πληθυσμού των δεδομένων, είναι απαραίτητη η εφαρμογή ενός ακόμη βήματος προ-επεξεργασίας για την μετατροπή των κατηγορικών δεδομένων σε αριθμητικά δεδομένα. Στη βιβλιογραφία, συναντάμε διάφορες τέτοιες μεθόδους και η παρούσα εργασία παρουσιάζει τις σημαντικότερες. Εντούτοις, η εφαρμογή ενός ακόμη βήματος προ-επεξεργασίας είναι ένα αρνητικό σημείο, επειδή προσθέτει υπολογιστικό κόστος. Αυτό το σημείο αποτελεί το κίνητρο εκπόνησης της παρούσας διπλωματικής εργασίας. Ο σκοπός της παρούσας εργασίας είναι να αντιμετωπίσει την πρόκληση της αποτελεσματικής κατηγοριοποίησης δεδομένων που περιέχουν κατηγορικά χαρακτηριστικά, χωρίς να απαιτείται το επιπρόσθετο βήμα προ-επεξεργασίας για την μετατροπή τους. Η μεθοδολογία που χρησιμοποιήθηκε περιλαμβάνει την ανάπτυξη νέων παραλλαγών του αλγορίθμου CNN-rule (Condensed Nearest Neighbour rule), οι οποίες χρησιμοποιούν μετρικές απόστασης για μη μετρικούς χώρους. Εκτελώντας πειράματα σε 8 σύνολα δεδομένων, συγκρίθηκαν οι τρείς παραλλαγές του αλγορίθμου CNN-rule με τον αλγόριθμο των κ εγγύτερων γειτόνων χωρίς μείωση του πληθυσμού των δεδομένων, αξιολογώντας την ακρίβεια (accuracy) και το ποσοστό μείωσης (reduction rate). Τα πειραματικά αποτελέσματα δείχνουν αξιοσημείωτη απόδοση και για τις τρεις παραλλαγές του αλγορίθμου CNN-rule. | el |
heal.abstract | In the era of information and rapid internet growth, the management and processing of large volumes of training data becomes increasingly important. Handling such large datasets is not feasible by classification algorithms due to high computational costs and memory storage requirements. Therefore, this data is pre-processed using Data Reduction Techniques to reduce computational costs and the memory storage. Most data reduction techniques which have been proposed and are available in the literature primarily focus on the k-Nearest Neighbor (k-NN) classifier. The k-NN classifier is the simplest instance-based learning method in machine learning. In most practical data science applications, datasets contain categorical variables. However, the k-NN classifier cannot handle categorical data, thus a preprocessing step is necessary to convert categorical data into numerical data. Various methods for this purpose can be found in the literature, and this work presents the most important ones. However, applying an additional preprocessing step is a drawback because it adds computational cost. This issue is the motivation behind this thesis. The purpose of this thesis is to address the challenge of effective classification of data containing categorical features without requiring additional preprocessing steps for their conversion. The methodology used includes the development of new variations of the CNN-rule algorithm (Condensed Nearest Neighbor rule), which use distance metrics for non-metric spaces. By conducting experiments on eight datasets, the three variations of the CNN-rule algorithm were compared to the k-Nearest Neighbor algorithm without data reduction, evaluating accuracy and reduction rate. The experimental results demonstrate remarkable performance in all three variations of the CNN-rule algorithm. | en |
heal.advisorName | Ουγιάρογλου, Στέφανος | el |
heal.committeeMemberName | Ουγιάρογλου, Στέφανος | el |
heal.academicPublisher | Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρικών Συστημάτων | el |
heal.academicPublisherID | ihu | - |
heal.numberOfPages | 122 σελ. | - |
heal.fullTextAvailability | true | - |
heal.type.el | Μεταπτυχιακή εργασία | el |
Appears in Collections: | Μεταπτυχιακές Διατριβές |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Master_Thesis_IHU_Fotiadis_Georgios.pdf | Μεταπτυχιακή εργασία | 1.43 MB | Adobe PDF | View/Open |
Please use this identifier to cite or link to this item:
This item is a favorite for 0 people.
http://195.251.240.227/jspui/handle/123456789/16791
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.