Κατηγοριοποίηση ομιλητών με χρήση αλγορίθμων μηχανικής μάθησης

Thumbnail Image
Date
Authors
Καρανικόλα, Αικατερίνη
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Στην παρούσα εργασία, διερευνάται το ζήτημα της κατηγοριοποίησης (classification) χρησιμοποιώντας πολυμεσικά δεδομένα (ήχο, εικόνα). Πιο συγκεκριμένα, εξετάζεται το πρόβλημα αναγνώρισης ομιλητή από κλειστό σύνολο ομιλητών. Η εκπαίδευση των αλγορίθμων κατηγοριοποίησης γίνεται βασιζόμενη σε συγκεκριμένα audio features (MFCCs) όσον αφορά τον ήχο, ενώ για την εικόνα που παράγεται από τα ηχητικά σήματα, χρησιμοποιείται μία πλειάδα από διαφορετικά image features (jpeg, autocorrect, phog, κτλ). Τέλος, προτείνεται ένας τρίτος τρόπος κατηγοριοποίησης που συνδυάζει χαρακτηριστικά ήχου και εικόνας, o οποίος και παρουσιάζει καλύτερα αποτελέσματα. Στο πλαίσιο της πειραματικής διαδικασίας εξετάζεται η αποδοτικότητα συγκεκριμένων ταξινομητών (ενδεικτικά αναφέρονται οι Naive Bayes, SMO, Random Forest, Ibk, LogitBoost που αντιπροσωπεύουν κάποιες από τις κύριες οικογένειες ταξινομητών (Μπεϋζιανοί ταξινομητές (Bayesian Classifiers), Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines – SVM), Δέντρα αποφάσεων (Decision Trees) , Αλγόριθμοι Κ Κοντινότερων Γειτόνων (K Nearest Neighbors Algorithms) , Συνδυαστικές μέθοδοι (Ensemble Methods)). Επιπροσθέτως, οι ταξινομητές «δοκιμάζονται» σε σενάρια που διαφοροποιούνται ως προς πλήθος των ομιλητών (8, 16 και 36 ομιλητές) αλλά και ως προς τον τύπο ομιλίας (κανονική σε ένταση ομιλία, γρήγορη ομιλία και ψίθυρος), ώστε να γίνει αντιληπτή η αύξηση του βαθμού δυσκολίας του προβλήματος όταν αυξάνεται ο αριθμός ομιλητών και όταν η ομιλία τροποποιείται.
Description
Keywords
Μηχανική μάθηση, Κατηγοριοποίηση, Αναγνώριση ομιλίας, Ταξινομητές
Citation