Ανάλυση βιολογικών δεδομένων με χρήση αλγορίθμων μηχανικής μάθησης με εφαρμογή στη διάγνωση του γαστρεντερικού καρκίνου (Bachelor thesis)

Περήφανος, Αλέξανδρος


Full metadata record
DC FieldValueLanguage
dc.contributor.authorΠερήφανος, Αλέξανδροςel
dc.date.accessioned2022-07-23T23:33:19Z-
dc.date.available2022-07-23T23:33:19Z-
dc.identifier.urihttp://195.251.240.227/jspui/handle/123456789/15035-
dc.descriptionΠτυχιακή εργασία - Σχολή Τεχνολογικών Εφαρμογών, 2019 (α/α 11029el
dc.rightsDefault License-
dc.subjectΜηχανική Μάθησηel
dc.subjectMachine Learningen
dc.subjectΜέθοδοι Μείωσης Διαστάσεωνel
dc.subjectDimension Reduction Methodsen
dc.subjectΜέθοδοι Επιλογής Χαρακτηριστικώνel
dc.subjectMutual Informationen
dc.subjectrfecven
dc.subjectKolmogorov-Smirnov 2 Samplesen
dc.subjectSVMen
dc.subjectΓαστρεντερικός Καρκίνοςel
dc.subjectGastrointestinal Canceren
dc.subjectΟισοφαγικός Καρκίνοςel
dc.subjectEsophageal Canceren
dc.subjectΣτομαχικός Καρκίνοςel
dc.subjectStomach Canceren
dc.subjectΠαγκρεατικός Καρκίνος-
dc.subjectΚαρκίνος της Χοληδόχου Κύστηςel
dc.subjectGallbladder Canceren
dc.subjectΓονίδιαel
dc.subjectGenesen
dc.subjectΑλληλλούχιση RNA (RNA-seq)el
dc.subjectRNA Sequencing (RNA-Seq)en
dc.subjectFeature Selection Methodsen
dc.subjectPancreatic Canceren
dc.titleΑνάλυση βιολογικών δεδομένων με χρήση αλγορίθμων μηχανικής μάθησης με εφαρμογή στη διάγνωση του γαστρεντερικού καρκίνουel
heal.typebachelorThesis-
heal.type.enBachelor thesisen
heal.generalDescriptionΠτυχιακή εργασίαel
heal.classificationMachine learning/-
heal.classificationΜηχανική μάθηση-
heal.classificationDigestive organs -- Cancer --Diagnosisel
heal.classificationΠεπτικά όργανα -- Καρκίνος -- Διάγνωσηen
heal.identifier.secondary11029-
heal.languageel-
heal.accessaccount-
heal.recordProviderΣχολή Τεχνολογικών Εφαρμογών - Τμήμα Μηχανικών Πληροφορικήςel
heal.publicationDate2019-05-21-
heal.bibliographicCitationΠερήφανος, Α. (2019). Ανάλυση βιολογικών δεδομένων με χρήση αλγορίθμων μηχανικής μάθησης με εφαρμογή στη διάγνωση του καρκίνου . (Πτυχιακή εργασία). Διεθνές Πανεπιστήμιο της Ελλάδος.el
heal.abstractΗ στόχευση της παρούσας διπλωματικής εργασίας είναι να εντοπιστεί ένας όσο το δυνατόν μικρότερος αριθμός γονιδίων, με χρήση Μεθόδων Μηχανικής Μάθησης, τα οποία περιέχουν σημαντική πληροφορία για την κατασκευή ενός ταξινομητή που θα έχει εξαιρετική απόδοση και φυσικά θα μπορεί να γενικεύει. Το σύνολο δεδομένων που εξετάσαμε αφορά στο γαστρεντερικό καρκίνο και προέρχεται από τη βάση δεδομένων του TCGA (The Cancer Genome Atlas). Η συγκεκριμένη μορφή καρκίνου που μελετιέται, έχει 5 είδη, αλλά εμείς θα ασχοληθούμε συγκεκριμένα με 4, τον οισοφαγικό, τον στομαχικό, τον παγκρεατικό και της χοληδόχου κύστης. Οι μεταβλητές-στόχοι είναι η ύπαρξη ή μη της ασθένειας. Οι τιμές των γονιδίων αποτελούν τιμές έκφρασης μετασχηματισμένες από αλληλλούχιση RNA (RNA-seq). Αρχικά, βρέθηκαν τα κοινά γονίδια για όλους τους τύπους καρκίνου προς ανάλυση. Μετέπειτα, με τη χρήση των μεθόδων Μείωσης Διαστάσεων/επιλογής χαρακτηριστικών Αμοιβαίας Πληροφορίας (Mutual Information), του κριτηρίου Kolmogorov-Smirnov για 2 δείγματα (KS 2Samples Test) και τέλος της Επαναλαμβανόμενης Εξάλειψης Χαρακτηριστικών με Διασταυρούμενη Επικύρωση (Recursive Feature Elimination with Cross Validation) αξιολογήσαμε τα γονίδια και τα ταξινομήσαμε με βάση τη σημαντικότητα τους. Για τις 2 πρώτες (σ.σ. Mutual Information, Kolmogorov Smirnov 2 Samples), επιλέξαμε τα πρώτα σημαντικά γονίδια της κάθε μεθόδου Επιλογής Χαρακτηριστικών ξεκινώντας από 10 μέχρι 5000. Η τελευταία (σ.σ. rfecv) εφαρμόζοντας βαρύτητες στα χαρακτηριστικά με βάση το εκάστοτε μοντέλο που χρησιμοποιεί, εξαλείφει κάθε φορά τα χειρότερα χαρακτηριστικά σύμφωνα με κάποιο βήμα. Αφού εντοπίστηκε το βέλτιστο υποσύνολο χαρακτηριστικών, κάναμε σύγκριση ταξινομητών και έπειτα εκτελέσαμε Εξαντλητική αναζήτηση (Grid Search) για την εύρεση των παραμέτρων που οι αποδοτικότεροι ταξινομητές πετυχαίνουν την καλύτερη τιμή μέσης ακρίβειας (k-Fold Cross Validation). Επιπροσθέτως, άλλες μέθοδοι χρησιμοποιήθηκαν όπως κανονικοποίηση των δεδομένων και δημιουργία συνθετικών δεδομένων για τη μειοψηφούσα κλάση(υγιείς) καθώς το δείγμα μας ήταν κατά πολύ μη ισορροπημένο. Τα αποτελέσματα των πειραμάτων έδειξαν ότι το κριτήριο rfecv υπερέχει των υπολοίπων κριτηρίων αξιολόγησης που εξετάσαμε αφού κατάφερε να εντοπίσει το μικρότερο αριθμό σημαντικών γονιδίων (χαρακτηριστικών) τα οποία περιέχουν σημαντική πληροφορία για την κατασκευή ενός ταξινομητή SVM RBF ο οποίος διαθέτει καλύτερη ικανότητα γενίκευσης έναντι άλλων υποσυνόλων σημαντικών γονιδίων που προήλθαν από τα υπόλοιπα κριτήρια αξιολόγησης που εξετάσαμε(η απόδοση του ταξινομητή δεν μειώθηκε παρόλο που χρησιμοποιήσαμε και μεθόδους δημιουργίας συνθετικών τιμών για τη μειοψηφούσα κλάση). Επιπλέον παρατηρήθηκε ότι η με κανονικοποίηση των γονιδιακών τιμών, πέτυχαμε τα καλύτερα αποτελέσματα.el
heal.abstractThe purpose of this thesis is to identify as few genes as possible, using Machine Learning methods, which contain important information for the construction of a classifier that will perform extremely well and will, of course, be able to generalize. The dataset that we examined, concerns gastrointestinal cancer and was taken from the TCGA database (The Cancer Genome Atlas). The specific form of cancer studied, has 5 species, but we will deal specifically with 4, esophageal, stomach, pancreatic and gallbladder. The target variables are the existence or absence of the disease. Gene expression data were transformed by RNA sequencing (RNA-Seq). Initially, common genes were found for all types of cancer to be analyzed. Subsequently, using the Dimension Reduction/Feature Selection Methods, Kolmogorov Smirnov 2 Samples Test (KS 2Samples Test), Mutual Information (MI) and Recursive Feature Elimination with Cross Validation (RFE-CV), we evaluated the genes and ranked them according to their significance. For the first two (Mutual Information, Kolmogorov Smirnov 2 Samples), we chose the first more important genes of each feature selection method starting from 10 to 5000. The latter (RFE-CV) refers to the classification of features according to the weights given by the respective model used, with repeated deletion of features in regards to a specific step and then selecting the best number of features through cross-validation. We compared classifiers and then we performed Grid Search to find the parameters at which the most efficient classifiers achieve the best results (k-Fold Cross Validation). In addition, other methods were used such as data standardization and generation of synthetic data for the minority class (healthy) as our sample was very unbalanced. The results of the experiments showed that the rfecv criterion is superior to the other evaluation criteria we tested as it was able to find the smaller number of significant genes containing important information for the construction of an SVM RBF classifier that has a better generalization capability than other subsets of important genes derived from the other evaluation criteria we tested (the classifier's performance did not decrease even after we used methods for synthetic data generation). In addition, it was observed that with standardization of gene values, we achieved the best results.en
heal.advisorNameΔιαμαντάρας, Κωνσταντίνοςel
heal.committeeMemberNameΔιαμαντάρας, Κωνσταντίνοςel
heal.academicPublisherΣχολή Τεχνολογικών Εφαρμογών /Τμήμα Μηχανικών Πληροφορικήςel
heal.academicPublisherIDihu-
heal.numberOfPages68-
heal.fullTextAvailabilitytrue-
heal.type.elΠροπτυχιακή/Διπλωματική εργασίαel
Appears in Collections:Μεταπτυχιακές Διατριβές

Files in This Item:
File Description SizeFormat 
PERIFANOS.pdf1.5 MBAdobe PDFView/Open



 Please use this identifier to cite or link to this item:
http://195.251.240.227/jspui/handle/123456789/15035
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.