Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/13557
Title: Μέθοδοι ομαδοποίησης για τον εντοπισμό έκτροπων τιμών
Other Titles: Outlier detection using ensemble methods
Authors: Βλαχογεώργος, Μάριος
Keywords: Έκτροπες τιμές
Βασικές μέθοδοι εντοπισμού έκτροπων τιμών
Μέθοδοι ομαδοποίησης
Keywords (translated): Outliers
Outlier detection methods
Ensemble methods
Abstract: Το πρόβλημα εντοπισμού των έκτροπων τιμών (outliers) αποτελεί ένα από τα πιο διαδεδομένα σε θέματα μηχανικής μάθησης, εξόρυξης δεδομένων αλλά και στατιστικής. Η αιτία για την οποία κρίνεται απαραίτητος ο εντοπισμός των έκτροπων τιμών είναι ότι επηρεάζουν σημαντικά την ανάλυση ενός συνόλου δεδομένων. Για το λόγο αυτό έχει αναπτυχθεί μια ποικιλία μεθόδων η οποία συμβάλει στον εντοπισμό τους. Ωστόσο ορισμένες μέθοδοι είναι ευαίσθητες σε ιδιαιτερότητες που συναντώνται σε σύνολα δεδομένων. Μια λύση για την αντιμετώπιση του συγκεκριμένου προβλήματος είναι η χρήση μεθόδων ομαδοποίησης οι οποίες αποτελούν το θέμα της διπλωματικής εργασίας. Αρχικά στο κεφάλαιο 1 αναφέρεται ο ορισμός της έκτροπης τιμής (outlier) η οποία ορίζεται σαν μια παρατηρήση ενός συνόλου δεδομένων η οποία αποκλίνει από τις υπόλοιπες παρατηρήσεις. Στη συνέχεια αναφέρονται διάφορα είδη έκτροπων τιμών όπως επίσης και κάποιες κατηγορίες μεθόδων οι οποίες εξαρτώνται από την παρουσία εξαρτημένης μεταβλητής στο σύνολο δεδομένων (επιβλεπόμενες, μη επιβλεπόμενες και ημι-επιβλέπομενες μέθοδοι). Στο τέλος του 1ου κεφαλαίου προσδιορίζεται η έξοδος των μεθόδων εντοπισμού αλλά και πως αξιολογούνται αυτές οι τεχνικές (ROC-AUC).Στη συνέχεια στο κεφάλαιο 2 προσδιορίζονται μια ταξονομία των διάφορων τεχνικών εντοπισμού των έκτροπων τιμών. Επιπρόσθετα με βάση την συγκεκριμένη ταξονομία προσδιορίζονται ορισμένες από τις βασικές μεθόδου εντοπισμού. Στο κεφάλαιο 3 πραγματοποείται μια αναφορά στις μεθόδους ομαδοποίησης για τον εντοπισμό έκτροπων τιμών. Αρχικά αναλύεται το θεωρητικό μέρος το οποίο περιλαμβάνει τον προσδιορισμό των μεθόδων ομαδοποίησης,την ανάλυση συναρτήσεων συνδυασμού των εξόδων (μεγιστη & μέση τιμή) ,αναφορά σε κατηγορίες μεθόδων μεθόδου δίνοντας έμφαση σε μεθόδους μείωσης της διακύμανσης και μεροληψίας καθώς οι συγκεκριμένες ποσότητες επηρεάζουν σημαντικά το σφάλμα κάθε μεθόδου. Στη συνέχεια πραγματοποιείται μια αναφορά στο τρόπο λειτουργίας συγκεκριμένων μεθόδων ομαδοποίησης μείωσης διακύμανσης-μεροληψίας. Στο κεφάλαιο 4 περιλαμβάνεται η πειραματική διαδικασία για την οποία επιλέγονται κάποιες βασικές και μέθοδοι ομαδοποίησης εντοπισμού έκτροπων τιμών. H πειραματική διαδικασία αποτελείται από μια σύγκριση της ακρίβειας ROC-AUC και της χρονικής πολυπλοκότητας βασικών και μεθόδων ομαδοποίησης, από μια οπτικοποίηση των αποτελεσμάτων των μεθόδων για συγκεκριμένο σύνολο δεδομένων και από έναν τρόπο εντοπισμού έκτροπων τιμών χρησιμοποιώντας συγκεκριμένες μεθόδους. Ολοκληρώνοντας στο κεφάλαιο 5 αναλύνται τα συμπεράσματα στα οποία φαίνεται οτι η χρήση των τεχνικών ομαδοποίησης οδηγεί σε ακριβέστερα αποτελέσματα σε σχέση με την εφαρμογή βασικών μεθόδων εντοπισμού και ειδικότερα παρατηρείται ότι ο συνδυασμός των αποτελεσμάτων με χρήση οποίασδήποτε μεθόδου εντοπισμού επιφέρει καλύτερα αποτελέσματα σε σχέση με την αρχική εφαρμογή της ίδιας μεθόδου.
Abstract (translated): Detecting outliers, which are observations that deviate significantly from the rest observations of a dataset, is one of the most common problems in the fields of machine learning, data mining, and statistics. The importance of this task lies in the fact that the existence of outliers can affect the analysis of a dataset, as well as the reliability of the conclusions drawn from them. In order to deal with this problem, a variety of methods has been developed. However, plenty of these methods are very sensitive to different particularities of the dataset. An approach that has been proposed to overcome this obstacle is the development and the use of ensembles methods, in order to detect outliers. In chapter 1, the definition of outliers is referred. Moreover, different types of outliers, as well as some categories based on the availability of the ground truth are analyzed. At the end of this chapter outlier detection’s output is determined as well as how these techniques are evaluated (ROC-AUC). In chapter 2, a taxonomy of outlier detection methods is presented and moreover, some basic outlier detection methods are briefly explained. In chapter 3 the philosophy of ensemble methods is presented, along with the way these methods work based on the tradeoff of bias-variance. Chapter 4 includes the experimental procedure following by a performance comparison based on ROC-AUC and time complexity for both single and ensemble methods. In addition, visualization on a specific dataset for different single and ensemble methods is illustrated, in order to specify the outliers each method detects. The conclusions of this work can be found in chapter 5 where the results of the experimental procedure are discussed. In general, ensemble methods seem to be more accurate for outlier detection than single outlier detection methods. Especially, model combination methods for outlier ensembles with a specific outlier detection method are more effective than the initial implementation of the same method
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
Διπλωματική εργασία-Βλαχογεώργος Μάριος.pdf2.42 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.