Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση

datacite.contributor.RelatedPersonΧρήστος Μακρής
datacite.contributor.RelatedPersonΓεώργιος Παυλίδης
datacite.contributor.SupervisorΚυριάκος Βλάχος
datacite.rightshttp://purl.org/coar/access_right/c_abf2el
dc.contributor.authorΖάρρας, Δημήτριος
dc.contributor.otherZarras, Dimitrios
dc.date.accessioned2022-07-18T05:46:40Z
dc.date.available2022-07-18T05:46:40Z
dc.date.copyright2022-07-07
dc.degreemasterThesisel
dc.description.abstractΠολλά εργαλεία Τεχνολογιών Πληροφοριών και Επικοινωνιών (ΤΠΕ) υπόσχονται να βοηθήσουν και να υποστηρίξουν την απόφαση για ένα συγκεκριμένο δεδομένο λαμβάνοντας υπόψη την ποικιλία των εισροών των δεδομένων. Η βασική λογική αυτών των εργαλείων υλοποιείται με την αντιστοίχιση των λέξεων-κλειδιών που τοποθετεί ο χρήστης στο σύστημα και προφανώς, η έξοδος είναι η εμφάνιση με τη μορφή ποσοστών του αριθμού των κριτηρίων που ταιριάζουν στο κριτήριο που ορίζει ο ερευνητής. Η εξέλιξη της Επεξεργασίας Φυσικής Γλώσσας (NLP), μαζί με τις εφαρμογές μεγάλου όγκου δεδομένων και η βελτίωση των αλγορίθμων NLP δημιουργούν νέες δυνατότητες αναζήτησης περιεχομένου σε ψηφιακά κείμενα. Οι λύσεις ΤΠΕ μπορούν να αναλύσουν περισσότερα δεδομένα που βασίζονται στη γλώσσα από ό,τι οι ίδιοι οι άνθρωποι. Λαμβάνοντας υπόψη τον τεράστιο όγκο αδόμητων δεδομένων που παράγονται καθημερινά, η αυτοματοποίηση θα είναι κρίσιμη για την αποτελεσματική ανάλυση του κειμένου σε βάθος. Ομοίως, η βαθιά μάθηση χρησιμοποιείται πλέον ευρέως για τη μοντελοποίηση της ανθρώπινης γλώσσας, ενώ, από την άλλη πλευρά, η ανάγκη για σημασιολογική κατανόηση δεν είναι απαραίτητα παρούσα σε αυτές τις προσεγγίσεις μηχανικής μάθησης. Το NLP διαδραματίζει ουσιαστικό ρόλο, καθώς βοηθά στην επίλυση της γλωσσικής ασάφειας και προσθέτει χρήσιμη αριθμητική δομή στα δεδομένα για πολλές μεταγενέστερες εφαρμογές, όπως η αναγνώριση ομιλίας ή η ανάλυση κειμένου. Αυτά τα κείμενα βρίσκονται στη βιβλιογραφία, σε επιστημονικές δημοσιεύσεις, σε ενημερωτικά φυλλάδια, σε ερωτηματολόγια κ.λπ. θα μπορούσαν να θεωρηθούν ως πληροφορίες μεγάλου όγκου δεδομένων, όπου οι ερευνητές πρέπει να έχουν τις πιο πρόσφατες πληροφορίες και να ενημερώνονται συνεχώς. Η αυξανόμενη υιοθέτηση, οι εξελισσόμενες και διαφορετικές μορφές ψηφιακών μορφών, καθώς και το μεγάλο ενδιαφέρον και ανάγκη για χρήση αυτών των δεδομένων, κατέστησαν σαφές ότι η ανάκτηση δεδομένων του αφηγηματικού κειμένου που περιέχεται στις ψηφιακές φόρμες και τη βιβλιογραφία είναι αναπόφευκτη. Ένα παράδειγμα είναι το NLP, επειδή οι ψηφιακές φόρμες περιέχουν απρόβλεπτη ποικιλία εισόδων που περιπλέκει τις κλασικές τεχνικές που εφαρμόζονται σε άλλες περιπτώσεις εξαγωγής κειμένου και δεδομένων. Ωστόσο, όλες οι προηγούμενες προσεγγίσεις βασίστηκαν στη λογική της αποθήκευσης και ανάκτησης δεδομένων εισόδου φύλου, παρέχοντας ουσιαστικά μια στατιστική απάντηση στο σύνολο των λέξεων για το φύλο που ταιριάζουν με τις λέξεις-κλειδιά που επιλέχθηκαν από τον ερευνητή από μια προεπιλεγμένη λίστα. Επιπλέον, το αποτέλεσμα κάθε εργαλείου είναι απλώς ένα δυνητικό φύλο που αντιστοιχεί σε ένα τμήμα επιλεγμένων λέξεων-κλειδιών. Στόχος της παρούσας εργασίας είναι η μελέτη τεχνικών εξόρυξης κειμένου και η ανάπτυξη εργαλείου για την ανάλυση των ποιοτικών χαρακτηριστικών σε πολυγλωσσικά δεδομένα που συλλέχθηκαν μέσω περισσότερων από 650.000 ερωτηματολογίων που υπήρχαν διαθέσιμα. Η έρευνα ακολούθησε μια διαδικασία ανάκτησης πληροφοριών που συγκεντρώνει την ποικιλία των εισροών των δεδομένων, τις μεταφράζει και με βάση την απόσταση που παρουσιάζει κάθε λήμμα από το στέλεχος της λέξης, αποφασίζει για το αποτέλεσμα.el
dc.description.translatedabstractMany Information and Communications Technology (ICT) tools promise to help and support the decision-making process on a specific dataset, taking into consideration the diversity of the dataset. The core logic of such tools is to match their input to a set of user-defined keywords, and their output is presented as the percentage of the number of criteria that match the criteria defined by the researcher. Progress in Natural Language Processing (NLP), alongside Big Data applications and the improvements of NLP algorithms, has created new capabilities in content mining of digital texts. ICT solutions can analyse more data, based on natural languages, than humans. Considering the huge number of unstructured data that is produced daily, automation is critical in the efficient deep analysis of texts. While on the one hand Deep Learning is widely used nowadays to model human language, on the other hand semantic understanding is not necessarily present in such machine-learning approaches. NLP plays a vital role in helping solve linguistic ambiguity and provides useful numeric structure to data that can be further exploited by applications such as speech recognition and text mining. Texts present in literature, whitepapers, brochures, questionaries, etc., could be considered Big Data for which researchers must be constantly updated and provided with the latest information available. The increasing adoption, the evolving and vast variety of digital media, the big interest and need to use such media, makes it clear that retrieval of text contained in such digital forms and literature is unavoidable. One such example is NLP, as digital forms can contain an unpredictable amount and variety of inputs that complicates classic techniques used in other cases of text and information mining. Previous approaches were based on the core logic of storing and retrieving gender data as input and producing a statistical analysis of the number of gender words that match a predefined list of keywords that have been chosen by the researcher. Furthermore, the output of each tool is a potential gender that matches part of the chosen keywords. This thesis aims to study text mining techniques and develop a tool to analyse the features of multilingual data that have been gathered from a dataset of over 650.000 available questionaries. The research followed a standard information retrieval process where the input data stream was gathered, transformed, and based on the distance of each lemma from the stem of a keyword a result was produced.el
dc.identifier.urihttp://hdl.handle.net/10889/16540
dc.language.isogrel
dc.subjectΑνάλυση φυσικής γλώσσαςel
dc.subjectΜηχανική μάθησηel
dc.subjectΑνάλυση πολυγλωσσικού κειμένουel
dc.subjectΠολυγλωσσικά κείμεναel
dc.subjectΕξόρυξη πτυχώνel
dc.subjectΑπόσταση levenshteinel
dc.subjectΛανθάνουσα κατανομή dirichletel
dc.subject.alternativeNatural language processingel
dc.subject.alternativeMachine learningel
dc.subject.alternativeMultilingual text processingel
dc.subject.alternativeMultilingual textsel
dc.subject.alternativeAspect miningel
dc.subject.alternativeTf-idfel
dc.subject.alternativeLevenshtein distanceel
dc.subject.alternativeLatent dirichlet allocationel
dc.titleΠολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθησηel
dc.title.alternativeMultilingual natural language processing using machine learningel
oaire.licenseConditionhttps://creativecommons.org/licenses/by-nc-sa/4.0/el
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση.pdf
Size:
3.13 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.53 KB
Format:
Item-specific license agreed upon to submission
Description: