Σχεδιασμός και υλοποίηση μικροϋπολογιστικού συστήματος αυτόματου διαχωρισμού ταυτόχρονων ομιλητών

datacite.contributor.RelatedPersonΑντωνακόπουλος, Θεόδωρος
datacite.contributor.RelatedPersonΜουστάκας, Κωσταντίνος
datacite.contributor.SupervisorΔερματάς, Ευάγγελος
dc.contributor.authorΛακχμίρι, Μαρία
dc.contributor.otherLakchmiri, Maria
dc.date.accessioned2023-09-07T08:41:13Z
dc.date.available2023-09-07T08:41:13Z
dc.date.issued2023-08-23
dc.degreegraduateThesis
dc.description.abstractΗ συγκεκριμένη διπλωματική εργασία εξετάζει τις τεχνικές τυφλού διαχωρισμού σημάτων(Blind Source Separation) με στόχο τη σχεδίαση και υλοποίηση ενός μικροϋπολογιστικού συστήματος για τον διαχωρισμό παράλληλων ομιλητών σε ένα δωμάτιο. Ο διαχωρισμός φωνών αποτελεί διαδικασία ζωτικής σημασίας για διάφορους τομείς όπως η αναγνώριση ομιλίας, η ενίσχυση παραγωγής ήχου και η πραγματοποίηση προηγμένων εργασιών ανάλυσης ήχου. Το πρόβλημα που στοχεύει να επιλύσει η συγκεκριμένη διπλωματική εργασία είναι το λεγόμενο φαινόμενο «Cocktail Party» (Cocktail Party Effect) σε ένα χώρο, σε πραγματικό χρόνο. Το φαινόμενο cocktail party είναι η δυνατότητα του εγκεφάλου να εστιάζει την ακουστική του προσοχή σε ένα συγκεκριμένο ερέθισμα ενδιαφέροντος. Στα πλαίσια της επεξεργασίας σημάτων αναφερόμαστε σε αυτό σαν ένα πρόβλημα επεξεργασίας ήχου και διαχωρισμού σημάτων. Εστιάζει στον διαχωρισμό συγκεκριμένων ηχητικών πηγών από ένα αναμειγμένο δείγμα, ειδικά όταν οι πηγές επικαλύπτονται στον χρόνο ή και τη συχνότητα. Αρχικά παρατίθεται μία βιβλιογραφική ανασκόπηση, η οποία παραθέτει διάφορες τεχνικές Τυφλού Διαχωρισμού Σημάτων (BSS), Προεπεξεργασίας και Μετεπεξεργασίας σημάτων. Πραγματοποιείται συγκριτική ανάλυση πειραμάτων MATLAB για μία αξιολόγηση προτεινόμενων τεχνικών μηχανικής μάθησης. Η υλοποίηση του συστήματος ολοκληρώνεται με βάση την τεχνική μηχανικής μάθησης Independent Component Analysis (ICA) και συγκεκριμένα την υλοποίηση του αλγορίθμου Fast ICA, σε ένα μικροϋπολογιστικό σύστημα, συγκεκριμένα το Board STM32F334R8 με τον επεξεργαστή ARM CORTEX M4. Ο προγραμματισμός του συστήματος γίνεται σε bare metal C, με βάση τις βιβλιοθήκες CMSIS της ARM για εκμετάλλευση των ταχυτήτων τους. Η υλοποίηση περιλαμβάνει την προετοιμασία του συστήματος για την λήψη ηχητικών σημάτων και την υλοποίηση του αλγορίθμου Fast ICA, μίας γρήγορης υλοποίησης του ICA, για τον διαχωρισμό των σημάτων. Τα αποτελέσματα αναδεικνύουν ότι ο αλγόριθμος αυτός δεν είναι ο κατάλληλος για εφαρμογές περιορισμένης μνήμης. Σε επόμενα στάδια αξίζει η εξέταση τεχνικών Βαθιών Νευρωνικών Δικτύων για την υλοποίηση του διαχωρισμού και ο έλεγχος διαφορετικών μοντέλων για το βέλτιστο αποτέλεσμα.
dc.description.translatedabstractThis thesis examines the technologies of Blind Source Separation (BSS) to design and implement an embedded system for the separation of concurrent speakers in a room. Speech separation is a vital process for various fields such as speech recognition, and advanced audio processing. The problem that this thesis aims to solve is the so-called “Cocktail Party Effect Problem”, in real time. The cocktail party effect is the ability of the brain to focus its auditory attention on a particular stimulus of interest. In the context of signal processing, we refer to it as an audio processing and signal separation problem. It focuses on separating specific sound sources from a mixed sample, especially when the sources overlap in time and/or frequency. Firstly, a literature review is provided, which lists various Blind Source Separation (BSS) and signal Preprocessing and Postprocessing techniques. A comparative analysis of MATLAB experiments is performed for an evaluation of proposed machine learning techniques. The implementation of the system is completed based on the Independent Component Analysis (ICA) machine learning technique, specifically the implementation of the Fast ICA algorithm, on a microcomputer system, namely the STM32F334R8 board, with an ARM CORTEX M4 processor. The system is programmed in bare metal C, based on ARM's CMSIS libraries to exploit their speeds. The implementation includes preparing the system for receiving audio signals and implementing the Fast ICA algorithm, a fast implementation of ICA, to separate the signals. The results indicate that this algorithm is not the most suitable for memory-constrained applications. In the next steps it is worth considering Deep Neural Network (DNN) techniques to implement the separation and to test different models for the optimal result.
dc.identifier.urihttps://hdl.handle.net/10889/25611
dc.language.isoel
dc.rightsAttribution-NonCommercial 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/us/*
dc.subjectΜικροϋπολογιστικά συστήματα
dc.subjectΤυφλός διαχωρισμός πηγών
dc.subjectΑνεξάρτητη ανάλυση συνιστωσών
dc.subject.alternativeEmbedded systems
dc.subject.alternativeBlind source separation
dc.subject.alternativeIndependent component analysis
dc.titleΣχεδιασμός και υλοποίηση μικροϋπολογιστικού συστήματος αυτόματου διαχωρισμού ταυτόχρονων ομιλητών
dc.title.alternativeDesign and implementation of an embedded system for automatic separation of concurrent speakers
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
maria_lakchmiri_diploma_thesis.pdf
Size:
2.16 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
5.02 KB
Format:
Item-specific license agreed upon to submission
Description: