Μονοεικονική εκτίμηση βάθους χρησιμοποιώντας νευρωνικά μοντέλα (Master thesis)

Κουτσοπούλου, Αγγελική


Η εκτίμηση βάθους (depth estimation) είναι η διαδικασία υπολογισμού της απόστασης κάθε pixel από την κάμερα, η οποία είναι απαραίτητη για εργασίες όρασης υπολογιστή (computer vision), όπως η αυτόνομη οδήγηση, η Επαυξημένη Πραγματικότητα και η ρομποτική. Με την άνοδο της Μηχανικής Μάθησης, τα πρώτα μοντέλα εκτιμούσαν το βάθος με εικόνες από δύο κάμερες, όπως δύο μάτια. Αυτή η προσέγγιση απαιτούσε πρόσθετο εξοπλισμό και δεδομένα, για αυτό οι έρευνες έχουν στραφεί προς την εκτίμηση του βάθους με μία μόνο κάμερα. Στερείται στερεοσκοπικής όρασης, ωστόσο, και είναι, επομένως δύσκολο να εκτιμήσει με ακρίβεια το βάθος. Για να αντιμετωπίσουν αυτό το ζήτημα, οι επιστήμονες εφάρμοσαν διάφορες τεχνικές στα μοντέλα τους για να ανακτήσουν το βάθος. Η παρούσα διπλωματική εργασία συγκρίνει τα BANet, LapDepth και PixelFormer: τρία υπερσύγχρονα μοντέλα Βαθιάς Μάθησης με διαφορετικές αρχιτεκτονικές που εκτιμούν το βάθος από μία μόνο εικόνα. Στόχος είναι να εκπαιδευτούν από την αρχή σε ένα μεγάλο σύνολο δεδομένων και να γίνει σύγκριση των αποτελεσμάτων για τον καθορισμό του νικητή. Για αντικειμενική αξιολόγηση χρησιμοποιήθηκαν δύο διαφορετικά κριτήρια: SILog loss και RMSE. Επιπλέον, δύο ακόμη σύνολα δεδομένων κάνουν testing μέσω υποκειμενικής αξιολόγησης. Τα αποτελέσματα δείχνουν ότι το PixelFormer, με την πολύπλοκη αρχιτεκτονική του, εκτιμά το βάθος με μεγαλύτερη ακρίβεια μεταξύ των τριών μοντέλων.
Institution and School/Department of submitter: Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Keywords: BANet, DIODE, όραση υπολογιστή, συνελικτικά νευρωνικά δίκτυα, βαθιά μάθηση, KITTI, LapDepth, μηχανική μάθηση, εκτίμηση απόστασης με μία κάμερα, PixelFormer, Python;DIODE;Όραση υπολογιστή;Συνελικτικά νευρωνικά δίκτυα;Βαθιά μάθηση;Μηχανική μάθηση
Description: Μεταπτυχιακή εργασία - Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων,2024 (α/α 14178)
URI: http://195.251.240.227/jspui/handle/123456789/16596
Item type: masterThesis
General Description / Additional Comments: Μεταπτυχιακή εργασία
Submission Date: 2024-05-29T13:19:21Z
Item language: el
Item access scheme: free
Institution and School/Department of submitter: Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Publication date: 2024-04-16
Bibliographic citation: Κουτσοπούλου, Α. (2024). Μονοεικονική εκτίμηση βάθους χρησιμοποιώντας νευρωνικά μοντέλα (Μεταπτυχιακή εργασία).ΔΙΠΑΕ.
Abstract: Η εκτίμηση βάθους (depth estimation) είναι η διαδικασία υπολογισμού της απόστασης κάθε pixel από την κάμερα, η οποία είναι απαραίτητη για εργασίες όρασης υπολογιστή (computer vision), όπως η αυτόνομη οδήγηση, η Επαυξημένη Πραγματικότητα και η ρομποτική. Με την άνοδο της Μηχανικής Μάθησης, τα πρώτα μοντέλα εκτιμούσαν το βάθος με εικόνες από δύο κάμερες, όπως δύο μάτια. Αυτή η προσέγγιση απαιτούσε πρόσθετο εξοπλισμό και δεδομένα, για αυτό οι έρευνες έχουν στραφεί προς την εκτίμηση του βάθους με μία μόνο κάμερα. Στερείται στερεοσκοπικής όρασης, ωστόσο, και είναι, επομένως δύσκολο να εκτιμήσει με ακρίβεια το βάθος. Για να αντιμετωπίσουν αυτό το ζήτημα, οι επιστήμονες εφάρμοσαν διάφορες τεχνικές στα μοντέλα τους για να ανακτήσουν το βάθος. Η παρούσα διπλωματική εργασία συγκρίνει τα BANet, LapDepth και PixelFormer: τρία υπερσύγχρονα μοντέλα Βαθιάς Μάθησης με διαφορετικές αρχιτεκτονικές που εκτιμούν το βάθος από μία μόνο εικόνα. Στόχος είναι να εκπαιδευτούν από την αρχή σε ένα μεγάλο σύνολο δεδομένων και να γίνει σύγκριση των αποτελεσμάτων για τον καθορισμό του νικητή. Για αντικειμενική αξιολόγηση χρησιμοποιήθηκαν δύο διαφορετικά κριτήρια: SILog loss και RMSE. Επιπλέον, δύο ακόμη σύνολα δεδομένων κάνουν testing μέσω υποκειμενικής αξιολόγησης. Τα αποτελέσματα δείχνουν ότι το PixelFormer, με την πολύπλοκη αρχιτεκτονική του, εκτιμά το βάθος με μεγαλύτερη ακρίβεια μεταξύ των τριών μοντέλων.
Advisor name: Διαμαντάρας, Κωνσταντίνος
Examining committee: Διαμαντάρας, Κωνσταντίνος
Publishing department/division: Σχολή Μηχανικών - Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Publishing institution: ihu
Number of pages: 85 σελ.
Appears in Collections:Μεταπτυχιακές Διατριβές

Files in This Item:
File Description SizeFormat 
Monocular depth estimation using deep neural models.pdfΜεταπτυχιακή εργασία 5.6 MBAdobe PDFView/Open



 Please use this identifier to cite or link to this item:
http://195.251.240.227/jspui/handle/123456789/16596
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.