Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark

Loading...
Thumbnail Image

Date

Authors

Κεχαγιάς, Παναγιώτης

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής.

Description

Keywords

Εξόρυξη δεδομένων, Συσταδοποίηση

Citation