Σχεδιασμός και υλοποίηση μικροϋπολογιστικού συστήματος αυτόματου διαχωρισμού ταυτόχρονων ομιλητών
Σχεδιασμός και υλοποίηση μικροϋπολογιστικού συστήματος αυτόματου διαχωρισμού ταυτόχρονων ομιλητών
datacite.contributor.RelatedPerson | Αντωνακόπουλος, Θεόδωρος | |
datacite.contributor.RelatedPerson | Μουστάκας, Κωσταντίνος | |
datacite.contributor.Supervisor | Δερματάς, Ευάγγελος | |
dc.contributor.author | Λακχμίρι, Μαρία | |
dc.contributor.other | Lakchmiri, Maria | |
dc.date.accessioned | 2023-09-07T08:41:13Z | |
dc.date.available | 2023-09-07T08:41:13Z | |
dc.date.issued | 2023-08-23 | |
dc.degree | graduateThesis | |
dc.description.abstract | Η συγκεκριμένη διπλωματική εργασία εξετάζει τις τεχνικές τυφλού διαχωρισμού σημάτων(Blind Source Separation) με στόχο τη σχεδίαση και υλοποίηση ενός μικροϋπολογιστικού συστήματος για τον διαχωρισμό παράλληλων ομιλητών σε ένα δωμάτιο. Ο διαχωρισμός φωνών αποτελεί διαδικασία ζωτικής σημασίας για διάφορους τομείς όπως η αναγνώριση ομιλίας, η ενίσχυση παραγωγής ήχου και η πραγματοποίηση προηγμένων εργασιών ανάλυσης ήχου. Το πρόβλημα που στοχεύει να επιλύσει η συγκεκριμένη διπλωματική εργασία είναι το λεγόμενο φαινόμενο «Cocktail Party» (Cocktail Party Effect) σε ένα χώρο, σε πραγματικό χρόνο. Το φαινόμενο cocktail party είναι η δυνατότητα του εγκεφάλου να εστιάζει την ακουστική του προσοχή σε ένα συγκεκριμένο ερέθισμα ενδιαφέροντος. Στα πλαίσια της επεξεργασίας σημάτων αναφερόμαστε σε αυτό σαν ένα πρόβλημα επεξεργασίας ήχου και διαχωρισμού σημάτων. Εστιάζει στον διαχωρισμό συγκεκριμένων ηχητικών πηγών από ένα αναμειγμένο δείγμα, ειδικά όταν οι πηγές επικαλύπτονται στον χρόνο ή και τη συχνότητα. Αρχικά παρατίθεται μία βιβλιογραφική ανασκόπηση, η οποία παραθέτει διάφορες τεχνικές Τυφλού Διαχωρισμού Σημάτων (BSS), Προεπεξεργασίας και Μετεπεξεργασίας σημάτων. Πραγματοποιείται συγκριτική ανάλυση πειραμάτων MATLAB για μία αξιολόγηση προτεινόμενων τεχνικών μηχανικής μάθησης. Η υλοποίηση του συστήματος ολοκληρώνεται με βάση την τεχνική μηχανικής μάθησης Independent Component Analysis (ICA) και συγκεκριμένα την υλοποίηση του αλγορίθμου Fast ICA, σε ένα μικροϋπολογιστικό σύστημα, συγκεκριμένα το Board STM32F334R8 με τον επεξεργαστή ARM CORTEX M4. Ο προγραμματισμός του συστήματος γίνεται σε bare metal C, με βάση τις βιβλιοθήκες CMSIS της ARM για εκμετάλλευση των ταχυτήτων τους. Η υλοποίηση περιλαμβάνει την προετοιμασία του συστήματος για την λήψη ηχητικών σημάτων και την υλοποίηση του αλγορίθμου Fast ICA, μίας γρήγορης υλοποίησης του ICA, για τον διαχωρισμό των σημάτων. Τα αποτελέσματα αναδεικνύουν ότι ο αλγόριθμος αυτός δεν είναι ο κατάλληλος για εφαρμογές περιορισμένης μνήμης. Σε επόμενα στάδια αξίζει η εξέταση τεχνικών Βαθιών Νευρωνικών Δικτύων για την υλοποίηση του διαχωρισμού και ο έλεγχος διαφορετικών μοντέλων για το βέλτιστο αποτέλεσμα. | |
dc.description.translatedabstract | This thesis examines the technologies of Blind Source Separation (BSS) to design and implement an embedded system for the separation of concurrent speakers in a room. Speech separation is a vital process for various fields such as speech recognition, and advanced audio processing. The problem that this thesis aims to solve is the so-called “Cocktail Party Effect Problem”, in real time. The cocktail party effect is the ability of the brain to focus its auditory attention on a particular stimulus of interest. In the context of signal processing, we refer to it as an audio processing and signal separation problem. It focuses on separating specific sound sources from a mixed sample, especially when the sources overlap in time and/or frequency. Firstly, a literature review is provided, which lists various Blind Source Separation (BSS) and signal Preprocessing and Postprocessing techniques. A comparative analysis of MATLAB experiments is performed for an evaluation of proposed machine learning techniques. The implementation of the system is completed based on the Independent Component Analysis (ICA) machine learning technique, specifically the implementation of the Fast ICA algorithm, on a microcomputer system, namely the STM32F334R8 board, with an ARM CORTEX M4 processor. The system is programmed in bare metal C, based on ARM's CMSIS libraries to exploit their speeds. The implementation includes preparing the system for receiving audio signals and implementing the Fast ICA algorithm, a fast implementation of ICA, to separate the signals. The results indicate that this algorithm is not the most suitable for memory-constrained applications. In the next steps it is worth considering Deep Neural Network (DNN) techniques to implement the separation and to test different models for the optimal result. | |
dc.identifier.uri | https://hdl.handle.net/10889/25611 | |
dc.language.iso | el | |
dc.rights | Attribution-NonCommercial 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/us/ | * |
dc.subject | Μικροϋπολογιστικά συστήματα | |
dc.subject | Τυφλός διαχωρισμός πηγών | |
dc.subject | Ανεξάρτητη ανάλυση συνιστωσών | |
dc.subject.alternative | Embedded systems | |
dc.subject.alternative | Blind source separation | |
dc.subject.alternative | Independent component analysis | |
dc.title | Σχεδιασμός και υλοποίηση μικροϋπολογιστικού συστήματος αυτόματου διαχωρισμού ταυτόχρονων ομιλητών | |
dc.title.alternative | Design and implementation of an embedded system for automatic separation of concurrent speakers |