Μαθηματικές τεχνικές στην επιστήμη των δεδομένων και στη μηχανική μάθηση

Thumbnail Image
Date
Authors
Παντής, Γεώργιος
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Αντικείμενο αυτής της πτυχιακής εργασίας αποτέλεσε η περιγραφή μαθηματικών τεχνικών σε μεθόδους Επιβλεπόμενης Μηχανικής Μάθησης. Η δομή της εργασίας οργανώθηκε σε πέντε κεφάλαια, όπως παρουσιάζουμε στη συνέχεια. Στο πρώτο κεφάλαιο, παρουσιάζονται εισαγωγικές έννοιες, οι οποίες χρησιμεύουν στην κατανόηση του τομέα της Μηχανικής Μάθησης και Επιστήμης των Δεδομένων. Ακόμη, αναλύεται η ηθική δεοντολογία μεθόδων Μηχανικής Μάθησης με σκοπό τον προβληματισμό του αναγνώστη για πιθανές κακόβουλες χρήσεις τέτοιων νέων τεχνολογικών επιτευγμάτων. Στο δεύτερο κεφάλαιο, περιγράφεται η μη ύπαρξη βέλτιστης μεθόδου Μηχανικής Μάθησης επί γενικών προβλημάτων, βασιζόμενοι στο θεώρημα No Free Lunch Theorem και η ανάγκη υπάρξης συγκεκριμένων μέτρων απόδοσης μιας μεθόδου, όπως ο Confusion Matrix και τα ROC γραφήματα. Ακόμη, αναλύονται μέθοδοι εκπαίδευσης ενός μοντέλου, όπως οι τεχνικές Cross Validation. Στο τρίτο κεφάλαιο, περιγράφονται τα μαθηματικά θεμέλια μεθόδων Μηχανικής Μάθησης που επιλύουν προβλήματα Ταξινόμησης. Τέτοιες μέθοδοι είναι τα Δέντρα Απόφασης, οι Bayesian προσέγγιση (συμπεριλαμβανομένου των παραλλαγών του), ο Ταξινομητής Πλησιέστερου Γείτονα καθώς και οι μέθοδοι Μηχανών Διανυσματικής Υποστήριξης (συμπεριλαμβανομένου των μεθόδων Soft SVM, Hard SVM και Τεχνικών Πυρήνα). Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκαν μέτρα πληροφορίας (Entropy, Gini Index), το Θεώρημα του Bayes, τεχνικές βελτιστοποίησης τετραγωνικού προγραμματισμού και χρήση των συνθηκών Karush - Kuhn - Tucke. Στο τέταρτο κεφάλαιο, περιγράφεται η μαθηματική θεμελίωση μεθόδων Μηχανικής Μάθησης, οι οποίες επιλύουν προβλήματα Παλινδρόμησης. Τέτοιες μέθοδοι είναι το Απλό και Πολλαπλό Γραμμικό Μοντέλο, καθώς και ειδικές περιπτώσεις μεθόδων Bridge, όπως η παλινδρόμηση Ridge και LASSO. Για την περιγραφή των παραπάνω μεθόδων χρησιμοποιήθηκε η μέθοδος Ελαχίστων Τετραγώνων για την εύρεση ελαχίστου εκτιμητή (όπου υπήρχε), η μελέτη των ιδιοτήτων αυτών των εκτιμητών καθώς και ειδικές περιπτώσεις ύπαρξης βέλτιστου εκτιμητή στη περίπτωση της LASSO παλινδρόμησης. Στό πέμπτο κεφάλαιο, περιγράφεται μια νέα κατηγορία μεθόδων, οι Συνεργαστικές μέθοδοι, όπου εφαρμόζονται τόσο σε προβλήματα Ταξινόμησης όσο και Παλινδρόμησης. Η βασική διαφοροποίησή τους σε σχέση με τους παραπάνω ταξινομητές είναι ότι ο αλγόριθμος στηρίζεται σε περισσότερες από μία μεθόδους με σκοπό να πετύχει περισσότερο αποδοτικούς μαθητές. Τέτοιες μέθοδοι είναι οι Bagging, Boosting και Random Forests. Η εργασία ολοκληρώνεται με μια σύνοψη, όπως και κάποια βασικά συμπεράσματα και παρατηρήσεις.
Description
Keywords
Μηχανική μάθηση, Επιστήμη των δεδομένων, Μέθοδοι ταξινόμησης, Μέθοδοι παλινδρόμησης, Συνεργατικές μέθοδοι
Citation