Please use this identifier to cite or link to this item:
Title: Σχεδιασμός και ανάπτυξη παράλληλου αλγόριθμου συσταδοποίησης στο Apache Spark
Other Titles: Design and development of a parallel clustering algorithm on top of Apache Spark
Authors: Κεχαγιάς, Παναγιώτης
Keywords: Εξόρυξη δεδομένων
Keywords (translated): DBSCAN
Abstract: Η συσταδοποίηση είναι μια κοινή τεχνική για την ανάλυση δεδομένων, η οποία χρησιμοποιείται σε πολλούς τομείς, όπως είναι η μηχανική μάθηση, η εξόρυξη δεδομένων, η αναγνώριση προτύπων, η ανάλυση εικόνας και η βιοπληροφορική. Η συσταδοποίηση είναι η διαδικασία ομαδοποίησης παρόμοιων αντικειμένων σε διαφορετικές ομάδες. Ένα από τα μεγαλύτερα προβλήματα σήμερα είναι ο αυξανόμενος αριθμός δεδομένων που πρέπει να αναλύσουμε. Με αυτήν τη διπλωματική εργασία, επιχειρείται να υλοποιηθεί ο DBSCAN, ένας γνωστός αλγόριθμος συσταδοποίησης, στην πλατφόρμα Apache Spark ώστε να είναι δυνατή η εκτέλεσή του σε ένα κατανεμημένο σύστημα με σκοπό να υπερκεραστούν τα προβλήματα των υπαρχόντων υλοποιήσεων όταν αυτές εφαρμόζονται σε δεδομένα μεγάλου όγκου. Αναλύονται οι αρχές λειτουργίας του DBSCAN και οι τροποποιήσεις που έγιναν καθώς και οι λόγους για τους οποίους ήταν απαραίτητες. Τέλος, εκτελείται μια σειρά πειραμάτων για την αξιολόγηση της απόδοσης του σε σύγκριση με άλλους αλγορίθμους συσταδοποίησης που παρέχονται από το Apache Spark όπως o GMM και ο K-means. Αναφέρονται επίσης οι περιορισμοί της προτεινόμενης προσέγγισής.
Abstract (translated): Clustering is a common technique for data analysis, which is used in many fields, including machine learning, data mining, pattern recognition, image analysis and bioinformatics. Clustering is the process of grouping similar objects into different groups. One of the biggest problems nowadays is the increasing volume of data which must be analyzed. This thesis addresses the problem by implementing DBSCAN, a well-known clustering algorithm, using the Apache Spark framework in order to allow its execution on a computer cluster. This approach aims to overcome the issues state of the art implementations face when they deal with high volumes of data. The basic ideas of how DBSCAN works are presented and the proposed modifications are thoroughly explained along with the reasons they were necessary. Furthermore, a series of experiments are executed to evaluate the performance of the algorithm in comparison to other clustering algorithms which are provided by Spark such as GMM and K-means. Limitations of our approach are also discussed
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
thesis.pdf3.88 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.