Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark

Thumbnail Image
Date
Authors
Κεχαγιάς, Παναγιώτης
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής.
Description
Keywords
Εξόρυξη δεδομένων, Συσταδοποίηση
Citation