Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης

Thumbnail Image
Date
2022-09-22
Authors
Δημητρούκα, Γιαννούλα
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Η πραγματικά μεγάλη αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό την τελευταία δεκαετία αποτελεί γεγονός, το οποίο σαφώς και είναι άμεσα συνδεδεμένο με την αλματώδη εξέλιξη της τεχνολογίας. Υπέρογκος αριθμός δεδομένων αποθηκεύονται σε βάσεις δεδομένων. Για το λόγο αυτό, αυξήθηκε η ανάγκη ανακάλυψης και εξαγωγής γνώσης από τα δεδομένα αυτά που θα πραγματοποιείται αυτόματα με μεθόδους Μηχανικής Μάθησης και Βαθιάς Μάθησης. Στην παρούσα εργασία θα επικεντρωθούμε σε ένα επιμέρους πεδίο έρευνας της Βαθιάς Μάθησης, αυτό της αναγνώριση ομιλίας. Σκοπός της διπλωματικής είναι να λυθεί το πρόβλημα κατηγοριοποίησης πολλαπλών κλάσεων χρησιμοποιώντας δεδομένα ήχου. Αρχικά, γίνεται αναφορά μεθόδων κατηγοριοποίησης, όπως για παράδειγμα, η Μηχανή Υπο-στήριξης Διανυσμάτων, ο Τυχαίο Δάσος, ο Δένδρο Απόφασης, ο Κ-Πλησιέστερος Γείτονες και ο Αφελής Μπεϋζιανός Ταξινομητής. Επιπλέον, αναλύονται εκτενώς, τα Τεχνητά νευρωνικά δίκτυα και οι αρχιτεκτονικές τους. Στο πλαίσιο της πειραματικής διαδικασίας, τα δεδομένα που χρησιμοποιούνται, περιορίζονται σε ένα σύνολο δεδομένων τριάντα πέντε κλάσεων, οι οποίες περιλαμβάνουν χιλιάδες ηχητικά αρχεία. Για να πετύχουμε τον σκοπό της διπλωματικής, στο σύνολο αυτό, γίνεται προεπεξεργασία των δεδομένων και ανάπτυξη μοντέλων που είναι σε θέση να κατηγοριοποιούν σύνολα δεδομένων φωνητικών εντολών, χρησιμοποιώ-ντας βιβλιοθήκες της Python, όπως (Matplotlib, TensorFlow, Pandas, NumPy, Scikit-learn). Τέλος, έχει πραγματοποιηθεί μια εκτενής ανάλυση που καταδεικνύει την απόδοσή και την ακρίβειά τους.
Description
Keywords
Μηχανική μάθηση, Βαθιά μάθηση, Συνελικτικά νευρωνικά δίκτυα, Αναγνώριση ομιλίας, Αλγόριθμοι κατηγοριοποίησης
Citation