Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14976
Title: 3Δ ανίχνευση αντικειμένων σε νέφη σημείων με χρήση βαθιάς γεωμετρικής μάθησης
Other Titles: 3D object detection from point clouds using geometric deep learning
Authors: Ρωμανέλης, Ιωάννης
Keywords: 3Δ ανίχνευση αντικειμένων
Αραιή συνέλιξη
Βαθιά γεωμετρική μάθηση
Νέφη σημείων
Υπολογιστική όραση
Keywords (translated): 3D object detection
Sparse convolutions
Geometric deep learning
Point clouds
Computer vision
Abstract: Η 3D ανίχνευση αντικείμενων βρίσκει εφαρμογή σε προβλήματα που κυμαίνονται από την αυτόνομη οδήγηση έως τη ρομποτική όραση. Σε αυτά τα προβλήματα απαιτείται πολύ μεγάλη ακρίβεια, καθώς ένα λάθος μπορεί να έχει σοβαρές συνέπειες. Για το λόγο αυτό έχουν αναπτυχθεί πιο σύνθετοι αισθητήρες, όπως το LIDAR (Light Detection And Ranging), για την καλύτερη αναγνώριση του περιβάλλοντος. Στην εργασία αυτή μελετάται το πρόβλημα της 3D ανίχνευσης αντικειμένων σε σκηνές εξωτερικού χώρου, ως μέρος του γενικότερου προβλήματος της αυτόνομης οδήγησης. Για να δημιουργηθούν τα δεδομένα ένας LIDAR αισθητήρας τοποθετείται στην οροφή του οχήματος, το οποίος επιστρέφει ένα νέφος σημείων που περιγράφει το χώρο 360 μοίρες γύρω από αυτό. ́Οπως και στην 2D ανίχνευση δεδομένων έτσι και στην 3D οι αλγόριθμοι που έχουν ξεχωρίσει για αυτό το πρόβλημα είναι αυτοί βασισμένοι σε βαθιά νευρωνικά δίκτυα. Το πρόβλημα της γενίκευσης των δικτύων στα νέφη σημείων έγκειται στο πως θα δεχτούν τα νέα δεδομένα, καθώς σε αντίθεση με την εικόνα όπου τα εικονοστοιχεία είναι διατεταγμένα σε ένα πλέγμα, τα σημεία βρίσκονται στο συνεχή χώρο. Για να υπερκεραστεί αυτό το πρόβλημα γίνεται χρήση της αναπαράστασης των αραιών voxel, καθώς με αυτά μπορούν να δημιουργηθούν δίκτυα εκτελέσιμα σε πραγματικό χρόνο, διατηρώντας μικρές απαιτήσεις μνήμης. Το πρώτο δίκτυο που μελετάται αποτελεί επανυλοποίηση ενός από τα σημαντικότερα δίκτυα που έχουν προταθεί για το πρόβλημα της 3D ανίχνευσης. Το δίκτυο αυτό χρησιμοποιεί ανά σημείο πλήρως συνδεδεμένα επίπεδα για να εξάγει τα χαρακτηριστικά των voxel, το μέρος αυτό της αρχιτεκτονικής καλείται Voxel Feature Extractor (VFE). Τα voxel αυτά εισέρχονται σε μία σειρά από αραιά συνελικτικά επίπεδα για να εξαχθούν τα 3D χαρακτηριστικά, τα οποία γίνονται προβολή σε Bird’s Eye View (BEV) εικόνα και ένας 2D συνελικτικό δίκτυο εξάγει τις τελικές προβλέψεις. Η αρχιτεκτονική αυτή δοκιμάζεται για δεδομένα εισόδου σε καρτεσιανές αλλά και κυλινδρικές συντεταγμένες. Στη δεύτερη αρχιτεκτονική το δίκτυο διαμορφώνεται ώστε να αφαιρεθεί ο VFE, χρησιμοποιώντας απευθείας αραιές συνελίξεις στο κβαντισμένο νέφος. Για την αρχιτεκτονική αυτή γίνονται, επίσης, εκτεταμένα πειράματα ως προς τα δεδομένα εισόδου της αλλά και τον αλγόριθμο βελτιστοποίησής της. Το υλοποιημένο δίκτυο εκπαιδεύτηκε στο σύνολο δεδομένων KITTI. Για την αξιο- λόγηση του έγινε διαχωρισμός του συνόλου σε δύο υποσύνολα, ένα για εκπαίδευσης και ένα για αξιολόγηση των αποτελεσμάτων. Το τελικό δίκτυο καταφέρνει να εξάγει αποτελέσματα συγκρίσιμα με τις state-of-the-art μεθόδους.
Abstract (translated): 3D object detection is a competent task in problems ranging from autonomous driving to robot vision. The accuracy of these problems is crucial since an error could have fatal repercussions. Subsequently, advanced scanning sensors like LIDAR (Light Detection and Ranging) are deployed. In this project, we study 3D object detection in outdoor scenes as a part of the general self-driving car task. To generate the data a LIDAR sensor is placed on top of a car, scanning the surrounding space 360 degrees around the vehicle. As in 2D detection, Deep neural network algorithms stand out in this task. The apparent issue is the generalization of the networks to accept point clouds in their inputs. While image data lie on a regular grid, points of a point cloud do in the continuous space. To overcome this limitation, we use a sparse representation where the point cloud is voxelized while keeping only the voxels that contain at least one point. Using this method can result in networks that run in real-time while having limited memory requirements. The first network that we study is a reimplementation of one of the principal networks developed for this task. It consists of a Voxel Feature Extraction network that generates voxel features from the raw point cloud. The generated voxels are processed through a series of sparse convolutional layers to generate the 3D features of the scene. Finally, the 3D features are projected on a Bird’s Eye View (BEV) image and processed by a 2D detector to generate the final predictions. We have made variations of this architecture to receive data both in cartesian and cylindrical coordinates. Then we propose a second network architecture, that is modified accordingly to remove the VFE components. To do that, we apply sparse convolutions directly on the voxelized point cloud. To further improve this architecture we run different experiments with various input data combinations and optimization algorithms. Our network is trained and evaluated on the KITTI dataset. We split the training dataset into training and evaluation parts to validate the results. Our network achieves results comparable with state-of-the-art methods.
Appears in Collections:Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)

Files in This Item:
File Description SizeFormat 
Nemertes_Romanelis(ele).pdf2.17 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.