Search Results

Now showing 1 - 10 of 303
  • Thumbnail Image
    Item
    Finding the most appropriate variable selection algorithm per learning algorithm through experimental procedure
    (2022-09-13) Κουτελάκης, Σταμάτης; Koutelakis, Stamatis
    Τμήμα Μαθηματικών (ΜΔΕ)
    The subject’s study of this specific thesis is the study, the analysis and the comparison of a multitude of variable selection techniques through an experimental evaluation on 10 conventional data sets. In Chapter 2, we present the categories of variable selection methods as well as their mathematical background. Then in Chapter 3, we refer to the Preprocessing stage of the datasets. By imply this process, we achieve the handling of missing values and possible asymmetry, the maintenance of uniformity in the types of variables, the delineation of a sufficient number of instances of the target variables and the complete removal of duplicates, constant and quasi variables. In Chapter 4, the 1st Cycle of Experiments is carried out, which includes the analysis of all 10 pre-processed data sets, by using machine learning algorithms, without the assistance of variable selection methods. While in the 2nd Experiment Round, we implement and evaluate the 19 variable selection methods, which they have been chosen from the 2nd Chapter, by comparing the results. Finally, in the last Chapter we compare and present the results of the two experimental cycles and propose solutions for further study and application.
  • Thumbnail Image
    Item
    Αναγνώριση φωνητικών εντολών με τεχνικές βαθιάς μηχανικής μάθησης
    (2022-09-22) Δημητρούκα, Γιαννούλα; Dimitrouka, Giannoula
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)
    Η πραγματικά μεγάλη αύξηση του όγκου πληροφοριών στον παγκόσμιο ιστό την τελευταία δεκαετία αποτελεί γεγονός, το οποίο σαφώς και είναι άμεσα συνδεδεμένο με την αλματώδη εξέλιξη της τεχνολογίας. Υπέρογκος αριθμός δεδομένων αποθηκεύονται σε βάσεις δεδομένων. Για το λόγο αυτό, αυξήθηκε η ανάγκη ανακάλυψης και εξαγωγής γνώσης από τα δεδομένα αυτά που θα πραγματοποιείται αυτόματα με μεθόδους Μηχανικής Μάθησης και Βαθιάς Μάθησης. Στην παρούσα εργασία θα επικεντρωθούμε σε ένα επιμέρους πεδίο έρευνας της Βαθιάς Μάθησης, αυτό της αναγνώριση ομιλίας. Σκοπός της διπλωματικής είναι να λυθεί το πρόβλημα κατηγοριοποίησης πολλαπλών κλάσεων χρησιμοποιώντας δεδομένα ήχου. Αρχικά, γίνεται αναφορά μεθόδων κατηγοριοποίησης, όπως για παράδειγμα, η Μηχανή Υπο-στήριξης Διανυσμάτων, ο Τυχαίο Δάσος, ο Δένδρο Απόφασης, ο Κ-Πλησιέστερος Γείτονες και ο Αφελής Μπεϋζιανός Ταξινομητής. Επιπλέον, αναλύονται εκτενώς, τα Τεχνητά νευρωνικά δίκτυα και οι αρχιτεκτονικές τους. Στο πλαίσιο της πειραματικής διαδικασίας, τα δεδομένα που χρησιμοποιούνται, περιορίζονται σε ένα σύνολο δεδομένων τριάντα πέντε κλάσεων, οι οποίες περιλαμβάνουν χιλιάδες ηχητικά αρχεία. Για να πετύχουμε τον σκοπό της διπλωματικής, στο σύνολο αυτό, γίνεται προεπεξεργασία των δεδομένων και ανάπτυξη μοντέλων που είναι σε θέση να κατηγοριοποιούν σύνολα δεδομένων φωνητικών εντολών, χρησιμοποιώ-ντας βιβλιοθήκες της Python, όπως (Matplotlib, TensorFlow, Pandas, NumPy, Scikit-learn). Τέλος, έχει πραγματοποιηθεί μια εκτενής ανάλυση που καταδεικνύει την απόδοσή και την ακρίβειά τους.
  • Thumbnail Image
    Item
    Allergic rhinitis passive detection, assessment, and monitoring using artificial intelligence of things (AIoT) and crowdsensing
    Τζαμαλής, Παντελής; Tzamalis, Pantelis
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)
    Allergy-related respiratory diseases, such as asthma and rhinitis that coexist with the term respiratory allergy, are a major and growing public health problem in Greece and worldwide. Today, 70 million Europeans suffer from chronic asthma and 100 million from allergic rhinitis. Among them, a significant percentage suffer from a severe form of allergic disease, which affects their productivity and quality of life. These numbers are expected to increase in the coming decades, establishing respiratory allergy as a pandemic. It is estimated that the cost of rhinitis in Europe amounts to more than 100 billion euros per year. The main goals of the respective treatment are summarized in the monitoring and control of the symptoms, their treatment, and the effort to prevent future seizures. At the same time, the causal association with allergens is sought, in order to follow a special desensitization treatment in them. However, monitoring patients with allergic respiratory diseases is notably difficult. The aim of this work is to create an integrated, sensor- and crowdsourcing-based, eHealth/mHealth approach that is deployed in wireless environments, which adopts the principles of Healthcare 5.0 for the intelligent, automatic, holistic, effective, and continuous monitoring of allergic rhinitis disease outbreaks. In this paradigm shift into the digital healthcare approach, a study is conducted which is distinguished into two main parts. Initially, a platform is delivered that is capable of the large-scale spatiotemporal detection and monitoring of the disease exacerbation, in real-time. Additionally, the association of the allergens' onset with the allergic disease symptoms and the levels of occurrence of various irritants in a region (humidity, dust) are examined. The data that feeds the platform is generated from multiple and different types of resources in the form of, sensor measurements that are distributed across a region, text data from social media, as well as data that comes from the users’ subjective assessments, combined with geolocation recordings, concerning the intensity of their allergic symptoms. An analysis mechanism is integrated into the platform, which can process the hybrid forms of data that include, sensor measurements analysis, text-mining, and subjective inputs analysis, where the latter is a part of the users’ participatory sensing. Afterward, by the developed visualization mechanisms, the platform’s role is to provide information, in an easy-to-understand way, about the patient's health status and statistical inferences in charts and plots regarding the various forms of allergic symptoms and the people that affect them. Additionally, a notification service is deployed in case of intense symptoms. It is obvious that this approach integrates both human and machine intelligence together with their hybrid interaction. Nevertheless, the real challenge is to provide a complete automated analysis and passive monitoring of the disease, based only on machine intelligence. For that purpose, the work that the second part of the study consists of is the design and development of another platform that aims at the intelligent and automatic evaluation and identification of kinesiological data that is related to an individual’s allergic rhinitis symptoms (such as scratching the nose). Thus, this part of the study is transferred from the large-scale to the individual-scale disease monitoring scenario. In particular, the motion data, in this study, is actually gestures that are retrieved from smart wrist-worn devices. A whole set of algorithmic components is developed for an end-to-end analysis in this phase. In particular, an innovative data processing pipeline is employed in association with the utilization of AI. Specifically, the usage of both statistical learning models and cutting-edge neural network architectures leads to the practical motion data evaluation and pattern recognition of allergic gestures in the users’ daily activities. As a case study, the introduced end-to-end machine learning pipeline is integrated and tested for its efficiency, for the first time, in a real-world scenario, in the context of the development of a national funded project, called Personal Allergy Tracer, where the multidisciplinarity is adopted by collaborating with recognized allergists that validated the whole approach in real patients via a pilot phase. Additionally, as this thesis is a part of the project, another system is deployed, which is related to the individual’s allergic rhinitis status non-invasive monitoring, by utilizing all the data resources that the project owns. In particular, except for the motion data that pertains to the development of this thesis and is obtained by the smart wearables, the rest of the data that is exploited by this system, is retrieved by a smartphone application that is a major component of the project, and corresponds to: a) the analysis of voice alteration of the user that is obtained through the smartphones’ microphone, and, b) the subjective evaluation by the users regarding the intensity of their symptoms. Access to such data takes place through collaboration with established partners in the IT industry, in Greece. This multi-source data is then analyzed in a hybrid manner, and finally, the system induces the automated monitoring of respiratory allergy and acts as a sentinel and disease prevention tool for patients with allergic rhinitis symptoms. However, because AI is a major component in the various tasks of the analysis of this thesis, a framework has been developed capable of handling multi-domain end-to-end machine learning pipelines regarding the motion data evaluation and pattern recognition, as well as the classification of text data that is related to social media posts. The framework automates all the cutting-edge procedures from data processing, model training, fine-tuning, evaluation, and validation of the whole pipeline in the domains of time-series analysis and text-mining, and provides a Prediction Service for automatically deploying the pipeline in production. In conclusion, various benefits can arise from such an analysis of both approaches. For instance, the complementary collected information, from the crowdsourced data which constitutes the individuals’ subjective self-assessment and social media posts, as well as the sensors’ measurements, can lead to the better control and management of seasonal symptoms in cases of allergic diseases, where a medical decision support system can be formulated. The automated, passive, even geolocated, recording of symptoms’ exacerbations in combination with automated notification services can contribute significantly to the control of the disease, reducing morbidity and improving the quality of life of patients with respiratory allergy and their performance. It also has a positive impact on maintaining the productive capacity of patients with respiratory allergies at work or school.
  • Thumbnail Image
    Item
    Εκτίμηση συμπεριφοράς ευφυών πρακτόρων σε δίκτυα μέσω τεχνικών μηχανικής μάθησης
    Νικολάου, Μιχάλης; Nikolaou, Michalis
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)
    Το θέμα που θα αναλυθεί στη συγκεκριμένη πτυχιακή είναι η συμπεριφορά ευφυών πρακτόρων σε δίκτυα μέσω τεχνικές μηχανικής μάθησης. Πιο συγκεκριμένα, μέσω ενός dataset και τη βοήθεια της Neo4j θα δημιουργήσουμε και να εκπαιδεύσουμε μερικά μοντέλα για να προβλέπουν την συμπεριφορά τους. Αυτό μπορεί να οδηγήσει σε θετικά ή και αρνητικά παραδείγματα συμπεριφοράς όπου και θα τα διαχωρίσουμε.
  • Thumbnail Image
    Item
    Ανάλυση της κλιματικής επίδρασης στην αφθονία των διαβιβαστών του ΙΔΝ
    Καραθανασόπουλος, Ορφέας; Karathanasopoulos, Orpheas
    Τμήμα Φυσικής (ΜΔΕ)
    Μελέτη της επίδρασης των μετεωρολογικών συνθηκών, που επικράτησαν κατά την ψυχρή περίοδο, στη διαχείμανση των διαβιβαστών του Ιού του Δυτικού Νείλου (ΙΔΝ), δηλαδή των κουνουπιών, και στην αφθονία τους κατά την περίοδο που είναι ενεργά (τέλη Άνοιξης με Σεπτέμβριο). Η μελέτη πραγματοποιήθηκε σε τρία επίπεδα, σε επίπεδο Περιφέρειας Κεντρικής Μακεδονίας, Π.Ε. Θεσσαλονίκης και Δήμου Χαλκηδόνος (Θεσσαλονίκη) για τη χρονική περίοδο 2011-2020. Επιπλέον, μέσω της ανάλυσης κι επεξεργασίας δεδομένων, αξιοποιώντας μεθόδους της μηχανικής μάθησης, αναπτύχθηκαν προγνωστικά μοντέλα της αφθονίας των κουνουπιών.
  • Thumbnail Image
    Item
    Τεχνικές επεξεργασίας φυσικής γλώσσας και απάντησης ερωτημάτων για την επικοινωνία με διαλογικούς πράκτορες σε περιβάλλοντα εικονικής πραγματικότητας
    Χατζηζήσης, Ιωάννης; Chatzizisis, Ioannis
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)
    Οι Διαλογικοί Πράκτορες (Conversational Agents), μπορούν να οριστούν ως αυτόματα συστήματα, ικανά να προσομοιώσουν μια διαδικασία διαλόγου με έναν άνθρωπο, έτσι ώστε να ολοκληρωθεί κάποια διεργασία, όπως για παράδειγμα η παροχή πληροφοριών ή η εκτέλεση μιας ενέργειας. Το λογισμικό (Διαλογικοί Πράκτορες), δέχεται ως είσοδο προτάσεις φυσικής γλώσσας και «παράγει» ως έξοδο, επίσης, προτάσεις φυσικής γλώσσας, δημιουργώντας, έτσι, μια μορφή συζήτησης, με τη χρήση γραπτού ή προφορικού λόγου. Συνήθως, ένας Διαλογικός Πράκτορας συντίθεται από υποσυστήματα, τα οποία είναι υπεύθυνα για διάφορες λειτουργίες του Πράκτορα, όπως, για παράδειγμα η αναγνώριση της εισόδου, δηλαδή του γραπτού ή του προφορικού λόγου, η Επεξεργασία Φυσικής Γλώσσας, η διαχείριση του διαλόγου, η βάση γνώσης, η παραγωγή φυσικής γλώσσας (Natural Language Generation) και στην περίπτωση που υποστηρίζεται ομιλία, η μετατροπή του κειμένου σε προφορικό λόγο. Με τη σειρά τους, τα παραπάνω υποσυστήματα, αποτελούνται από μια σειρά άλλων σημαντικών διεργασιών, όπως, για παράδειγμα, η γνώση σχετικά με τη σημασιολογία και το συντακτικό του λόγου. Στην παρούσα Διπλωματική Εργασία, μελετώνται, αρχικά, συστήματα Διαλογικών Πρακτόρων, τα οποία στοχεύουν στη διατήρηση ενός φυσικού διαλόγου, ώστε να μπορεί να επιτευχθεί όσο το δυνατόν καλύτερη επικοινωνία μεταξύ ανθρώπου και υπολογιστή. Επομένως, είναι πολύ σημαντική η εστίαση στις τεχνικές που χρησιμοποιούνται, ώστε να επιτευχθεί η φυσικότητα και η αμεσότητα του διαλόγου, οι οποίες αφορούν μεθόδους Μηχανικής ή Βαθιάς Μάθησης. Ένας άλλος τρόπος επικοινωνίας ανθρώπου – μηχανής, είναι μέσω της αλληλεπίδρασης με συστήματα Εικονικής Πραγματικότητας. Η Εικονική Πραγματικότητα είναι μια τεχνολογική περιοχή με πάρα πολλές δυνατότητες και εφαρμογές, που αξιοποιούν τα εργαλεία που παρέχονται, τα οποία προσφέρουν καλύτερη εμπειρία στο χρήστη. Η αύξηση της χρήσης των εικονικών περιβαλλόντων και της Εικονικής Πραγματικότητας, επιτρέπει στο χρήστη να βιώσει εμπειρίες που δε θα βίωνε διαφορετικά στον πραγματικό κόσμο και μιας και είναι μια αλληλεπιδραστική τεχνολογία, η εμβύθιση σε ένα εικονικό περιβάλλον, στο οποίο υπάρχει η προηγούμενη μορφή αλληλεπιδραστικής τεχνολογίας (οι Διαλογικοί Πράκτορες), πρόκειται να προσφέρει στο χρήστη μια πιο πλήρη εμπειρία επικοινωνίας ανθρώπου – υπολογιστή, σε σχέση με καθεμία από τις δυο τεχνολογίες μεμονωμένα. Σε ένα εικονικό περιβάλλον, η παρουσία ενός Διαλογικού Πράκτορα συμβάλλει στην αληθοφάνεια του περιβάλλοντος, αλλά και στην επίτευξη μιας καλύτερης εμπειρίας για το χρήστη, καθώς μπορεί να συμμετέχει σε διαλόγους που θα βοηθήσουν στην απόκτηση μιας πιο πλήρους και πιο εποικοδομητικής εμπειρίας, ενώ ο στόχος της παρουσίας του στο εικονικό περιβάλλον θα επιτευχθεί πιο εύκολα. Έτσι, μια ακόμα πτυχή της Διπλωματικής Εργασίας είναι να μελετηθούν οι τρόποι και οι τεχνικές για την ενσωμάτωση Διαλογικών Πρακτόρων σε εικονικά περιβάλλοντα και η επίτευξη όσο το δυνατόν καλύτερης αλληλεπίδρασης στα πλαίσια των περιβαλλόντων αυτών, αξιοποιώντας τη μελέτη που αφορά το πεδίο των Διαλογικών Πρακτόρων. Στο πλαίσιο αυτό, δημιουργήθηκαν δυο Διαλογικοί Πράκτορες, ένας με τη χρήση μιας ολοκληρωμένης, ισχυρής και δημοφιλούς πλατφόρμας δημιουργίας Διαλογικών Πρακτόρων (Dialogflow) και ένας με τη χρήση της γλώσσας προγραμματισμού Python και τεχνικών Επεξεργασίας Φυσικής Γλώσσας και Βαθιάς Μάθησης. Οι Διαλογικοί Πράκτορες αυτοί, στη συνέχεια, ενσωματώθηκαν σε ένα εικονικό περιβάλλον που δημιουργήθηκε με τη χρήση της πλατφόρμας ανοιχτού κώδικα OpenSimulator (OpenSim). Ο χρήστης, μπορεί να εισέλθει στο εικονικό περιβάλλον και να συνομιλήσει με οποιονδήποτε από τους Διαλογικούς Πράκτορες, με τη χρήση εικονικών χαρακτήρων, οι οποίοι αναπαριστούν τόσο τον ίδιο, όσο και τους Διαλογικούς Πράκτορες. Με την παρούσα μελέτη, γίνονται κατανοητά η λειτουργία και τα υποσυστήματα που συνθέτουν ένα Διαλογικό Πράκτορα, οι τεχνικές Επεξεργασίας Φυσικής Γλώσσας που χρησιμοποιούνται και η ενσωμάτωση Διαλογικών Πρακτόρων σε εικονικό περιβάλλον, όπου οι Διαλογικοί Πράκτορες μπορούν να αλληλεπιδρούν με το χρήστη και να απαντούν στα ερωτήματά του. Επιπρόσθετα, παρουσιάζονται αναλυτικά οι διαδικασίες για τη δημιουργία και την ενσωμάτωση των Διαλογικών Πρακτόρων, έτσι ώστε να ξεπεραστούν εμπόδια που θέτει η έλλειψη διεπαφών για την ενσωμάτωση Διαλογικών Πρακτόρων σε εικονικά περιβάλλοντα του OpenSim. Με τον τρόπο αυτό, γίνεται εύκολο και κατανοητό το να δημιουργηθεί ένας Διαλογικός Πράκτορας, σε οποιαδήποτε πλατφόρμα και με οποιεσδήποτε τεχνικές και το να ενσωματωθεί σε ένα εικονικό κόσμο του OpenSim, με τη χρήση της υπάρχουσας υποδομής.
  • Thumbnail Image
    Item
    Εκτίμηση οπτικών ιδιοτήτων των αιωρούμενων σωματιδίων από ψηφιακές απεικονίσεις του ουράνιου θόλου
    Γιαννακλής, Χρήστος-Παναγιώτης; Giannaklis, Christos-Panagiotis
    Τμήμα Φυσικής (ΜΔΕ)
    Σκοπός της παρούσας διπλωματικής εργασίας είναι η μελέτη των οπτικών ιδιοτήτων των αιωρούμενων σωματιδίων (aerosols). Πιο συγκεκριμένα, παρουσιάζεται μια μέθοδος υπολογισμού οπτικών ιδιοτήτων των aerosols, έχοντας σαν αντικείμενο μελέτης φωτογραφίες, συγκεκριμένου μεγέθους και ανάλυσης, που αναπαριστούν τον ουράνιο θόλο σε μια περιοχή και οι οποίες αναπαράγονται ανά τακτικά χρονικά διαστήματα. Χρησιμοποιείται το μοντέλο διάδοσης της ηλιακής ακτινοβολίας στην ατμόσφαιρα LibRadtran για τον υπολογισμό των ακτινοβολιών στην επιφάνεια από διάφορα σημεία του ουράνιου θόλου. Δεδομένα για τα αιωρούμενα σωματίδια ανακτήθηκαν από το παγκόσμιο δικτύου AERONET μέσω του ηλιακού φωτόμετρου CIMEL στο Εθνικό Αστεροσκοπείο Αθηνών, στην ίδια τοποθεσία που βρίσκεται και η κάμερα. Στο πρώτο κεφάλαιο γίνεται μια σύντομη αναδρομή στη γήινη ατμόσφαιρα με έμφαση κυρίως στα συστατικά της, αέρια και σωματίδια. Στη συνέχεια, το δεύτερο κεφάλαιο εστιάζει στην ηλιακή ακτινοβολία και στις διαδικασίες που συμμετέχει αυτή κατά τη διάδοσή της μέσα στην ατμόσφαιρα από το διάστημα έως την επιφάνεια της Γης. Εκτενής αναφορά γίνεται στην αλληλεπίδρασή της με τα αέρια της ατμόσφαιρας και τα αιωρούμενα σωματίδια και παρουσιάζεται το ισοζύγιο ενέργειας του πλανήτη, άμεσα συνδεδεμένο με τις διαδικασίες που αναφέρονται. Στο τρίτο κεφάλαιο, παρουσιάζονται οι μορφές των αιωρούμενων σωματιδίων, η χημική τους σύσταση, οι πηγές προέλευσής τους, καθώς επίσης και οι ιδιότητές τους. Επίσης, γίνεται αναφορά στις επιδράσεις που έχουν αυτά σε παγκόσμια κλίμακα, στο ενεργειακό ισοζύγιο, καθώς και στην ανθρώπινη υγεία. Το τέταρτο κεφάλαιο αναφέρεται στους τρόπους παρακολούθησης των αιωρούμενων σωματιδίων. Ιδιαίτερα, επικεντρωνόμαστε στο δίκτυο ηλιακών φωτόμετρων CIMEL του AERONET, που λειτουργεί υπό την αιγίδα της NASA και παρέχει δεδομένα για το οπτικό βάθος των αιωρούμενων σωματιδίων (AOD) και μέσω αντίστροφου αλγορίθμου και για τις υπόλοιπες οπτικές ιδιότητές τους. Γίνεται επίσης αναφορά σε ορισμένες δημοσιεύσεις που σχετίζονται με το εν λόγω δίκτυο. Οι πρώτες αφορούν μια μέθοδο κατηγοριοποίησης των αιωρούμενων σωματιδίων ανάλογα με το μέγεθος και την απορροφητικότητά τους. Η επόμενη αφορά την κλιματολογία των οπτικών ιδιοτήτων των αερολυμάτων βασιζόμενη στον σταθμό του AERONET στην Αθήνα, ενώ η τελευταία παρουσιάζει μια μέθοδο εκτίμησης των τιμών του ΑOD που λείπουν από το δίκτυο. Στο πέμπτο κεφάλαιο, εστιάζουμε σε παλαιότερες αναφορές που έχουν γίνει σε επιστημονικά περιοδικά και αφορούν μεθόδους υπολογισμού των οπτικών ιδιοτήτων των αερολυμάτων χρησιμοποιώντας φωτογραφίες ολόκληρου του ουράνιου θόλου. Παρουσιάζεται η δουλειά των Olmo et al., (2008) όπου η εξαγωγή του AOD από τις φωτογραφίες γίνεται μέσω γραμμικού ψευδο-αντίστροφου αλγορίθμου. Έπειτα, αναφερόμαστε στους Cazorla et al., (2009), οι οποίοι χρησιμοποίησαν ένα νευρωνικό δίκτυο για να αναπαράξουν το οπτικό βάθος των aerosols, ενώ οι Huo & Lu (2009) παρουσίασαν μια μελέτη που εξάγει το AOD μέσω μιας εκθετικής σχέσης που περιλαμβάνει το λόγο των ακτινοβολιών στα 450 και 650 nm. Οι Kazantzidis et al., (2017) χρησιμοποίησαν μια πολύ-γραμμική σχέση για τον υπολογισμό του AOD λαμβάνοντας υπόψη για πρώτη φορά την κορεσμένη περιοχή γύρω από τον Ήλιο. Τέλος, οι Roman et al., (2022) δημοσίευσαν μια εργασία η οποία περιέχει τα αποτελέσματα των οπτικών ιδιοτήτων αιωρούμενων σωματιδίων από σύστημα απεικόνισης του ουρανού, όπως αυτά εξάγονται από το μοντέλο GRASP. Για όλες τις αναφορές παρουσιάζονται τα αντίστοιχα αποτελέσματα και οι γραφικές αυτών σε σχέση με τις πρότυπες τιμές που δίνει το AERONET. Τέλος, στο έκτο κεφάλαιο, παρουσιάζεται η μέθοδος που χρησιμοποιήθηκε στην παρούσα εργασία για την εξαγωγή των οπτικών ιδιοτήτων από φωτογραφίες ολόκληρου του ουράνιου θόλου μέσω του μοντέλου Extreme Gradient Boosting. Γίνεται μια μικρή παρουσίαση της all-sky κάμερας που χρησιμοποιείται, αναλύονται τα σενάρια που κατασκευάσαμε στο μοντέλο διάδοσης της ακτινοβολίας LibRadtran. Κατόπιν, εξετάζεται η σχέση μεταξύ των μοντελοποιημένων ακτινοβολιών με τις αντίστοιχες εντάσεις χρώματος όπως εξάγονται από την φωτογραφία. Δίνεται ιδιαίτερη έμφαση στην κορεσμένη περιοχή γύρω από τον Ήλιο, καθώς αποτελεί μια σημαντική παράμετρο εισόδου στο μοντέλο μας. Έπειτα, παρουσιάζουμε το τελικό σετ δεδομένων που θα χρησιμοποιηθεί, ενώ γίνεται και μια σύντομη ανάλυση του μοντέλου XGBoost. Τα τελικά αποτελέσματα για το AOD στα τρία μήκη κύματος, 440, 500 και 675 nm, συγκρίνονται με τα αντίστοιχα δεδομένα από το ηλιακό φωτόμετρο CIMEL του δικτύου του AERONET. Οι συντελεστές συσχέτισης r2 είναι 0.87, 0.83 και 0.84 αντίστοιχα για κάθε μήκος κύματος. Παρουσιάζονται επίσης τα ιστογράμματα του σφάλματος στο AOD καθώς και άλλοι στατιστικοί δείκτες, όπως το RMSE και το MBE. Χρησιμοποιώντας το εξαγόμενο AOD στα 440 και στα 675 nm υπολογίζεται και ο εκθέτης α του Angstrom, ο οποίος επίσης συγκρίνεται με τα αντίστοιχα δεδομένα του AERONET, χωρίς ωστόσο τόσο καλά αποτελέσματα (r2 = 0.49). Πρόκειται για μια ποσότητα που υπολογίζεται μέσω δύο μεγεθών που προβλέπονται από το μοντέλο. Αναπόφευκτα τα σφάλματά τους μεταφέρονται κατά τον υπολογισμό του α, οπότε τα αποτελέσματα είναι μικρότερης ακρίβειας. Κατόπιν, ερευνάται αν υπάρχει κάποια σχέση μεταξύ του σφάλματος στον υπολογισμό του AOD με τις τιμές του SSA (ανακλαστικότητα μεμονωμένης σκέδασης), χωρίς ωστόσο να παρατηρείται κάποιο μοτίβο. Από το μοντέλο εξάγεται επίσης το κλάσμα λεπτόκοκκων σωματιδίων (FMF), που μας δίνει πληροφορία σχετικά με το μέγεθος των σωματιδίων, τόσο ως νούμερο (μοντέλο παλινδρόμησης), όσο και ως κλάση (μοντέλο ταξινόμησης). Όσο αφορά το μοντέλο παλινδρόμησης, γίνεται σύγκριση με τις τιμές του FMF από το AERONET με τον ίδιο τρόπο που έγινε για τον AOD δίνοντας αρκετά καλά αποτελέσματα (r2 = 0.88). Το μοντέλο ταξινόμησης κατηγοριοποιεί τα σωματίδια σε τρεις κλάσεις, χονδρόκοκκα, αναμεμειγμένα, και λεπτόκοκκα ανάλογα με την τιμή του FMF. Τα αποτελέσματά του παρουσιάζονται μέσω ενός πίνακα σφάλματος και διάφορων στατιστικών δεικτών που δείχνουν την επιτυχία του μοντέλου. Στη συνέχεια, χρησιμοποιώντας τις τιμές του FMF από το μοντέλο παλινδρόμησης, κατατάσσουμε τα σωματίδια σε κλάσεις. Τα αποτελέσματα είναι αρκετά καλά και οι διαφορές συγκριτικά με το μοντέλο ταξινόμησης μικρές. Χαρακτηριστικά αναφέρουμε ότι ο δείκτης ακρίβειας στο μοντέλο ταξινόμησης είναι 0.95, 0.88 και 0.92 για χονδρόκοκκα, αναμεμειγμένα, και λεπτόκοκκα σωματίδια αντίστοιχα, ενώ για τον καθορισμό των κλάσεων από το μοντέλο παλινδρόμησης, έχουμε αντίστοιχα, 0.94, 0.87 και 0.93.
  • Thumbnail Image
    Item
    Σύνθεση μουσικής με μεθόδους μηχανικής μάθησης
    Ασημακόπουλος, Κωνσταντίνος; Asimakopoulos, Konstandinos
    Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)
    Η παρούσα διπλωματική εργασία ερευνά εάν ένα σύστημα μηχανικής μάθησης θα μπορούσε να χρησιμοποιηθεί για την εναρμόνιση δοθεισών μουσικών μελωδιών στο στιλ των χορικών του J. S. Bach χωρίς καμία προηγούμενη μουσική γνώση. Τα δεδομένα αποτελούνται από τα 405 χορικά του Bach τα οποία αποκτήθηκαν με χρήση της βιβλιοθήκης music21 της Python. ́Ολα τα κομμάτια μεταφέρονται στην ίδια κλίμακα και κωδικοποιούνται σειριακά. Τα δεδομένα εισόδου είναι οι νότες της σοπράνο και τα δεδομένα εξόδου είναι οι νότες των υπολοίπων φωνών. Μετά από ανάλυση δείχνεται πως το πρόβλημα της αυτόματης εναρμόνισης μιας μελωδίας είναι ισοδύναμο μαθηματικά με ένα πρόβλημα μηχανικής μετάφρασης. Για τον λόγο αυτό αποφασίζεται να υλοποιηθεί ένα μοντέλο sequence-to-sequence. Το πρώτο μοντέλο που υλοποιείται είναι ένα απλό sequence-to-sequence με δύο LSTM επίπεδα χωρίς attention. Αφού προσδιοριστούν οι υπερπαράμετροι το δίκτυο εκπαιδεύεται αλλά αποτυγχάνει να συγκλίνει σε κάποιο ελάχιστο σφάλμα. Η αποτυχία αυτή οφείλεται στο πολύ μεγάλο μήκος των χρονοσειρών (κομματιών) αλλά και στην έλλειψη μηχανισμού attention. Το δεύτερο μοντέλο είναι ένας transformer που έχει χρησιμοποιηθεί με τεράστια επιτυχία σε προβλήματα μηχανικής μετάφρασης. Εφαρμόζεται τεχνική data augmentation στα δεδο- μένα και κάθε χορικό χωρίζεται σε πολλές μικρότερες χρονοσειρές. Λόγω του πολύ μεγάλου όγκου των δεδομένων το μοντέλο αυτό εκπαιδεύεται επιτυχώς χρησιμοποιώντας ένα 20% των συνολικών δεδομένων, πετυχαίνοντας ακρίβεια κατά την εκπαίδευση 93.66% Το εκπαιδευμένο μοντέλο χρησιμοποιείται για εναρμόνιση μελωδιών. Οι μελωδίες αυτές είναι διαφόρων στιλ, ξεκινούν από την εποχή του Bach και φθάνουν μέχρι και την σύγχρονη εποχή. Το μοντέλο δίνει πολύ ενθαρρυντικά αποτελέσματα. Δεν κάνει σοβαρά αρμονικά λάθη και τα κομμάτια που παράγει ακούγονται ευχάριστα. Τα αποτελέσματα που δίνει αυτό το μικρό μοντέλο δείχνουν ξεκάθαρα την καταλληλότητα του transformer για προβλήματα αυτόματης εναρμόνισης μελωδίας. Αξίζει να διερευνηθούν και οι πλήρεις δυνατότητες αυτού του μοντέλου στην αυτόματη εναρμόνιση που ίσως να ξεπεράσει σε απόδοση οποιοδήποτε άλλο μοντέλο έχει χρησιμοποιηθεί μέχρι σήμερα.
  • Thumbnail Image
    Item
    Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση
    Ζάρρας, Δημήτριος; Zarras, Dimitrios
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)
    Πολλά εργαλεία Τεχνολογιών Πληροφοριών και Επικοινωνιών (ΤΠΕ) υπόσχονται να βοηθήσουν και να υποστηρίξουν την απόφαση για ένα συγκεκριμένο δεδομένο λαμβάνοντας υπόψη την ποικιλία των εισροών των δεδομένων. Η βασική λογική αυτών των εργαλείων υλοποιείται με την αντιστοίχιση των λέξεων-κλειδιών που τοποθετεί ο χρήστης στο σύστημα και προφανώς, η έξοδος είναι η εμφάνιση με τη μορφή ποσοστών του αριθμού των κριτηρίων που ταιριάζουν στο κριτήριο που ορίζει ο ερευνητής. Η εξέλιξη της Επεξεργασίας Φυσικής Γλώσσας (NLP), μαζί με τις εφαρμογές μεγάλου όγκου δεδομένων και η βελτίωση των αλγορίθμων NLP δημιουργούν νέες δυνατότητες αναζήτησης περιεχομένου σε ψηφιακά κείμενα. Οι λύσεις ΤΠΕ μπορούν να αναλύσουν περισσότερα δεδομένα που βασίζονται στη γλώσσα από ό,τι οι ίδιοι οι άνθρωποι. Λαμβάνοντας υπόψη τον τεράστιο όγκο αδόμητων δεδομένων που παράγονται καθημερινά, η αυτοματοποίηση θα είναι κρίσιμη για την αποτελεσματική ανάλυση του κειμένου σε βάθος. Ομοίως, η βαθιά μάθηση χρησιμοποιείται πλέον ευρέως για τη μοντελοποίηση της ανθρώπινης γλώσσας, ενώ, από την άλλη πλευρά, η ανάγκη για σημασιολογική κατανόηση δεν είναι απαραίτητα παρούσα σε αυτές τις προσεγγίσεις μηχανικής μάθησης. Το NLP διαδραματίζει ουσιαστικό ρόλο, καθώς βοηθά στην επίλυση της γλωσσικής ασάφειας και προσθέτει χρήσιμη αριθμητική δομή στα δεδομένα για πολλές μεταγενέστερες εφαρμογές, όπως η αναγνώριση ομιλίας ή η ανάλυση κειμένου. Αυτά τα κείμενα βρίσκονται στη βιβλιογραφία, σε επιστημονικές δημοσιεύσεις, σε ενημερωτικά φυλλάδια, σε ερωτηματολόγια κ.λπ. θα μπορούσαν να θεωρηθούν ως πληροφορίες μεγάλου όγκου δεδομένων, όπου οι ερευνητές πρέπει να έχουν τις πιο πρόσφατες πληροφορίες και να ενημερώνονται συνεχώς. Η αυξανόμενη υιοθέτηση, οι εξελισσόμενες και διαφορετικές μορφές ψηφιακών μορφών, καθώς και το μεγάλο ενδιαφέρον και ανάγκη για χρήση αυτών των δεδομένων, κατέστησαν σαφές ότι η ανάκτηση δεδομένων του αφηγηματικού κειμένου που περιέχεται στις ψηφιακές φόρμες και τη βιβλιογραφία είναι αναπόφευκτη. Ένα παράδειγμα είναι το NLP, επειδή οι ψηφιακές φόρμες περιέχουν απρόβλεπτη ποικιλία εισόδων που περιπλέκει τις κλασικές τεχνικές που εφαρμόζονται σε άλλες περιπτώσεις εξαγωγής κειμένου και δεδομένων. Ωστόσο, όλες οι προηγούμενες προσεγγίσεις βασίστηκαν στη λογική της αποθήκευσης και ανάκτησης δεδομένων εισόδου φύλου, παρέχοντας ουσιαστικά μια στατιστική απάντηση στο σύνολο των λέξεων για το φύλο που ταιριάζουν με τις λέξεις-κλειδιά που επιλέχθηκαν από τον ερευνητή από μια προεπιλεγμένη λίστα. Επιπλέον, το αποτέλεσμα κάθε εργαλείου είναι απλώς ένα δυνητικό φύλο που αντιστοιχεί σε ένα τμήμα επιλεγμένων λέξεων-κλειδιών. Στόχος της παρούσας εργασίας είναι η μελέτη τεχνικών εξόρυξης κειμένου και η ανάπτυξη εργαλείου για την ανάλυση των ποιοτικών χαρακτηριστικών σε πολυγλωσσικά δεδομένα που συλλέχθηκαν μέσω περισσότερων από 650.000 ερωτηματολογίων που υπήρχαν διαθέσιμα. Η έρευνα ακολούθησε μια διαδικασία ανάκτησης πληροφοριών που συγκεντρώνει την ποικιλία των εισροών των δεδομένων, τις μεταφράζει και με βάση την απόσταση που παρουσιάζει κάθε λήμμα από το στέλεχος της λέξης, αποφασίζει για το αποτέλεσμα.
  • Thumbnail Image
    Item
    Ανάπτυξη μεθόδου δημιουργίας και χρήσης συνθετικών δεδομένων για εφαρμογές τεχνητής νοημοσύνης σε συστήματα παραγωγής : εφαρμογή στη οπτική αναγνώριση
    Μανέττας, Χρήστος; Manettas, Christos
    Τμήμα Μηχανολόγων και Αεροναυπηγών Μηχανικ. (ΔΕ)
    Η χρήση ευφυών συστημάτων για τη βελτίωση των μηχανουργικών κατεργασιών αποτελεί τη βάση για την ανάπτυξη αυτοματισμών και λύσεων επιθεώρησης ποιότητας στη Βιομηχανία 4.0. Οι εφαρμογές Τεχνητής Νοημοσύνης (AI) που βασίζονται σε μεθόδους Μηχανικής Μάθησης (ΜΜ) είναι ευρέως αποδεκτές ως πολλά υποσχόμενες τεχνολογίες στην βιομηχανική παραγωγή. Ωστόσο, οι τεχνικές MΜ απαιτούν μεγάλο όγκο ποιοτικών δεδομένων για εκπαίδευση και, στην περίπτωση εποπτευόμενου ΜΜ, απαιτείται συνήθως χειροκίνητη διαδικασία κατηγοριοποίησης ή επισήμανσης αυτών των δεδομένων. Μια τέτοια προσέγγιση είναι δαπανηρή, επιρρεπής σε σφάλματα και απαιτητική σε εργασία καθώς και σε χρόνο, ιδιαίτερα σε ένα πολύ σύνθετο και δυναμικό περιβάλλον όπως αυτό ενός συστήματος παραγωγής. Τα συνθετικά/τεχνητά σύνολα δεδομένων μπορούν να χρησιμοποιηθούν για την επιτάχυνση της φάσης εκπαίδευσης στο ΜΜ, δημιουργώντας κατάλληλα σύνολα δεδομένων εκπαίδευσης, καθώς και με αυτόματη επισήμανση μέσω μιας αλυσίδας προσομοίωσης και, έτσι, μειώνοντας τη συμμετοχή του χρήστη κατά τη φάση της εκπαίδευσης. Αυτά τα συνθετικά σύνολα δεδομένων μπορούν να ενισχυθούν και να διασταυρωθούν με πληροφορίες από τον πραγματικό κόσμο που δεν απαιτείται να είναι εκτεταμένες σε μέγεθος και χρονοβόρες. Ο στόχος της διπλωματικής εργασίας είναι να αξιολογήσει την απόδοση των προσεγγίσεων ML όπως τα Νευρωνικά Δίκτυα Συνέλιξης όταν εκπαιδεύονται σε συνθετικά σύνολα δεδομένων για σκοπούς επιθεώρησης ποιότητας αλλά και συμμετοχής στην παραγωγική διαδικασία. Διαφορετικά μοντέλα ΜΜ έχουν επιλεγεί και αξιολογηθεί σε ένα σύνολο πραγματικών δεδομένων, στην περίπτωση αυτή ένα σύνολο εικόνων, που έχουν ληφθεί από το πραγματικό περιβάλλον.