Please use this identifier to cite or link to this item:
Title: Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση
Other Titles: Mathematical techniques in data science and machine learning
Authors: Παντής, Γεώργιος
Keywords: Μηχανική μάθηση
Επιστήμη των δεδομένων
Μέθοδοι ταξινόμησης
Μέθοδοι παλινδρόμησης
Συνεργατικές μέθοδοι
Keywords (translated): Machine learning
Data science
Classification methods
Regression methods
Ensemble methods
Abstract: Αντικείμενο αυτής της πτυχιακής εργασίας αποτέλεσε η περιγραφή μαθηματικών τεχνικών σε μεθόδους Επιβλεπόμενης Μηχανικής Μάθησης. Η δομή της εργασίας οργανώθηκε σε πέντε κεφάλαια, όπως παρουσιάζουμε στη συνέχεια. Στο πρώτο κεφάλαιο, παρουσιάζονται εισαγωγικές έννοιες, οι οποίες χρησιμεύουν στην κατανόηση του τομέα της Μηχανικής Μάθησης και Επιστήμης των Δεδομένων. Ακόμη, αναλύεται η ηθική δεοντολογία μεθόδων Μηχανικής Μάθησης με σκοπό τον προβληματισμό του αναγνώστη για πιθανές κακόβουλες χρήσεις τέτοιων νέων τεχνολογικών επιτευγμάτων. Στο δεύτερο κεφάλαιο, περιγράφεται η μη ύπαρξη βέλτιστης μεθόδου Μηχανικής Μάθησης επί γενικών προβλημάτων, βασιζόμενοι στο θεώρημα No Free Lunch Theorem και η ανάγκη υπάρξης συγκεκριμένων μέτρων απόδοσης μιας μεθόδου, όπως ο Confusion Matrix και τα ROC γραφήματα. Ακόμη, αναλύονται μέθοδοι εκπαίδευσης ενός μοντέλου, όπως οι τεχνικές Cross Validation. Στο τρίτο κεφάλαιο, περιγράφονται τα μαθηματικά θεμέλια μεθόδων Μηχανικής Μάθησης που επιλύουν προβλήματα Ταξινόμησης. Τέτοιες μέθοδοι είναι τα Δέντρα Απόφασης, οι Bayesian προσέγγιση (συμπεριλαμβανομένου των παραλλαγών του), ο Ταξινομητής Πλησιέστερου Γείτονα καθώς και οι μέθοδοι Μηχανών Διανυσματικής Υποστήριξης (συμπεριλαμβανομένου των μεθόδων Soft SVM, Hard SVM και Τεχνικών Πυρήνα). Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκαν μέτρα πληροφορίας (Entropy, Gini Index), το Θεώρημα του Bayes, τεχνικές βελτιστοποίησης τετραγωνικού προγραμματισμού και χρήση των συνθηκών Karush - Kuhn - Tucke. Στο τέταρτο κεφάλαιο, περιγράφεται η μαθηματική θεμελίωση μεθόδων Μηχανικής Μάθησης, οι οποίες επιλύουν προβλήματα Παλινδρόμησης. Τέτοιες μέθοδοι είναι το Απλό και Πολλαπλό Γραμμικό Μοντέλο, καθώς και ειδικές περιπτώσεις μεθόδων Bridge, όπως η παλινδρόμηση Ridge και LASSO. Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκε η μέθοδος Ελαχίστων Τετραγώνων για την εύρεση ελαχίστου εκτιμητή (όπου υπήρχε), η μελέτη των ιδιοτήτων αυτών των εκτιμητών καθώς και ειδικές περιπτώσεις ύπαρξης βέλτιστου εκτιμητή στη περίπτωση της LASSO παλινδρόμησης. Στό πέμπτο κεφάλαιο, περιγράφεται μια νέα κατηγορία μεθόδων, οι Συνεργαστικές μέθοδοι, όπου εφαρμόζονται τόσο σε προβλήματα Ταξινόμησης όσο και Παλινδρόμησης. Η βασική διαφοροποίησή τους σε σχέση με τους παραπάνω ταξινομητές είναι ότι ο αλγόριθμος στηρίζεται σε περισσότερες από μία μεθόδους με σκοπό να πετύχει περισσότερο αποδοτικούς μαθητές. Τέτοιες μέθοδοι είναι οι Bagging, Boosting και Random Forests. Η εργασία ολοκληρώνεται με μια σύνοψη, όπως και κάποια βασικά συμπεράσματα και παρατηρήσεις.
Abstract (translated): The subject of this dissertation was the description of mathematical techniques in supervised Machine Learning methods. The structure of the work was organized into five chapters, as presented below. In the first chapter, introductory concepts are presented, which are useful in understanding the difference between the field of Machine Learning and Data Science. Furthermore, the ethical ethics of Machine Learning methods is analyzed in order to concern the reader with possible malicious uses of such new technological achievements. The second chapter describes the non - existence of an optimal Machine Learning method on general problems, based on the No Free Lunch Theorem and the need for specific performance measures of a method, such as the Confusion Matrix and the ROC graphs. Also, methods of training a model are analyzed, such as the techniques Cross Validation. In the third chapter, the mathematical foundations of Machine Learning methods which solve Classification problems are described. Such methods are Decision Trees, Bayesian Learners (General Bayes and Naive Bayes including variants), the Nearest Neighbor Classifier, and the Support Vector Machines (including Soft SVM, Hard SVM, and Kernel Tricks). To describe the above methods it was necessary to use information measures (Entropy, Gini Index), Bayes Theorem, methods of Optimization Quadratic Programming and the use of Karush - Kuhn - Tucke. The fourth chapter describes the mathematical foundation of Machine Learning methods, which solve Regression problems. Such methods are the Simple and Multiple Linear Model, as well as special cases of Bridge methods, such as Ridge and LASSO regression. To describe the above methods, the Minimal Squares method was used to find a minimum estimator (if it is possible), the description of the properties of these estimators as well as special cases of an optimal estimator in the case of LASSO regression. In the fifth chapter, a new category of methods is described, the Ensemble Methods, where they are applied to both Classification and Regression problems. The main difference between the above methods is that the algorithm relies on more than one method in order to achieve more efficient learners. Such methods are Bagging, Boosting and Random Forests. The work concludes with a summary, as well as some key conclusions and observations.
Appears in Collections:Τμήμα Μαθηματικών (ΔΕ)

Files in This Item:
File Description SizeFormat 
Thesis_Georgios_Pantis.pdf3.67 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.