Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/12323
Title: Αλγόριθμοι εξόρυξης διαδικασιών στο περιβάλλον ανάπτυξης Spark
Other Titles: Process mining algorithms in apache Spark framework
Authors: Πίτσιος, Βλάσης
Keywords: Εξόρυξη διαδικασιών
Αλγόριθμος Άλφα
Περιβάλλον Spark
Γλώσσα προγραμματισμού Scala
Keywords (translated): Spark
Scala
Process mining
Databricks
Alpha algorithm
Abstract: Η εξόρυξη διαδικασιών (process mining) αποτελεί έναν συνδετικό κρίκο ανάμεσα στην εξόρυξη δεδομένων (data mining) και στην διαχείριση διαδικασιών σε επιχειρήσεις (business process management). Συγκεκριμένα αποτελεί μια οικογένεια από τεχνικές που υποστηρίζουν την ανάλυση των διαδικασιών βασιζόμενες σε διάφορα σύνολα γεγονότων (event logs). Σκοπός της εξόρυξης διαδικασιών (process mining) είναι η κατανόηση αλλά και η βελτίωση της απόδοσης των διαδικασιών μιας επιχείρησης. Η παρούσα πρόταση έρευνας επικεντρώνεται στο κατά πόσο είναι δυνατή η παραλληλοποίηση τέτοιων αλγορίθμων εξόρυξης διαδικασιών και ποιο είναι το όφελος από την παράλληλη εκτέλεση τέτοιων αλγορίθμων. Συγκεκριμένα μελετάται ο αλγόριθμος Alpha (Alpha Algorithm), ο οποίος κατασκευάζει διαγράμματα PetriNet από ακολουθίες γεγονότων. Στόχος αποτελεί η ανάπτυξη του συγκεκριμένου αλγορίθμου χωρίς την χρήση τεχνικών παραλληλοποίησης και στη συνέχεια η ανάπτυξη του ίδιου αλγορίθμου με τεχνικές mapReduce σε περιβάλλον ανάπτυξης Spark, όπου ο αλγόριθμος θα εκτελείται παράλληλα. Στη συνέχεια θα γίνει εκτέλεση πειραμάτων σε πραγματικά δεδομένα και αξιολόγηση των αποτελεσμάτων της σειριακής εκτέλεσης του αλγορίθμου αλλά και της παράλληλης εκτέλεσης σε μια συστάδα υπολογιστών (cluster) με χρήση του περιβάλλοντος ανάπτυξης Spark. Η ανάπτυξη του αλγόριθμου Alpha θα υλοποιηθεί με πηγαίο κώδικα σε Scala και θα αξιολογηθεί εκτενώς πειραματικά σε πραγματικά δεδομένα.
Abstract (translated): Process mining is a link between data mining and business process management. In particular, it is a family of techniques that support the analysis of processes based on event logs. The purpose of process mining is to understand and improve the performance of business processes. This research proposal focuses on how parallelization of such process mining algorithms is possible and what is the benefit of the parallel execution of such algorithms. In particular, the Alpha Algorithm (a process mining algorithm), which builds PetriNet graphs from events sequences, is studied. The aim is to develop this algorithm without using parallelism techniques and then to develop the same algorithm with mapReduce techniques in Spark development environment, where the algorithm will run in parallel. In the next stage, experiments will be performed on real data and the results will be evaluated by comparing the serial execution of the algorithm with the parallel execution on a cluster using the Spark framework. The development of the Alpha algorithm will be implemented with Scala source code and will be extensively evaluated experimentally on real data.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
vlasisPitsios_MasterThesis_word.pdf3.7 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.