Πολυγλωσσική ανάλυση φυσικού λόγου με μηχανική μάθηση

Thumbnail Image
Date
Authors
Ζάρρας, Δημήτριος
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Πολλά εργαλεία Τεχνολογιών Πληροφοριών και Επικοινωνιών (ΤΠΕ) υπόσχονται να βοηθήσουν και να υποστηρίξουν την απόφαση για ένα συγκεκριμένο δεδομένο λαμβάνοντας υπόψη την ποικιλία των εισροών των δεδομένων. Η βασική λογική αυτών των εργαλείων υλοποιείται με την αντιστοίχιση των λέξεων-κλειδιών που τοποθετεί ο χρήστης στο σύστημα και προφανώς, η έξοδος είναι η εμφάνιση με τη μορφή ποσοστών του αριθμού των κριτηρίων που ταιριάζουν στο κριτήριο που ορίζει ο ερευνητής. Η εξέλιξη της Επεξεργασίας Φυσικής Γλώσσας (NLP), μαζί με τις εφαρμογές μεγάλου όγκου δεδομένων και η βελτίωση των αλγορίθμων NLP δημιουργούν νέες δυνατότητες αναζήτησης περιεχομένου σε ψηφιακά κείμενα. Οι λύσεις ΤΠΕ μπορούν να αναλύσουν περισσότερα δεδομένα που βασίζονται στη γλώσσα από ό,τι οι ίδιοι οι άνθρωποι. Λαμβάνοντας υπόψη τον τεράστιο όγκο αδόμητων δεδομένων που παράγονται καθημερινά, η αυτοματοποίηση θα είναι κρίσιμη για την αποτελεσματική ανάλυση του κειμένου σε βάθος. Ομοίως, η βαθιά μάθηση χρησιμοποιείται πλέον ευρέως για τη μοντελοποίηση της ανθρώπινης γλώσσας, ενώ, από την άλλη πλευρά, η ανάγκη για σημασιολογική κατανόηση δεν είναι απαραίτητα παρούσα σε αυτές τις προσεγγίσεις μηχανικής μάθησης. Το NLP διαδραματίζει ουσιαστικό ρόλο, καθώς βοηθά στην επίλυση της γλωσσικής ασάφειας και προσθέτει χρήσιμη αριθμητική δομή στα δεδομένα για πολλές μεταγενέστερες εφαρμογές, όπως η αναγνώριση ομιλίας ή η ανάλυση κειμένου. Αυτά τα κείμενα βρίσκονται στη βιβλιογραφία, σε επιστημονικές δημοσιεύσεις, σε ενημερωτικά φυλλάδια, σε ερωτηματολόγια κ.λπ. θα μπορούσαν να θεωρηθούν ως πληροφορίες μεγάλου όγκου δεδομένων, όπου οι ερευνητές πρέπει να έχουν τις πιο πρόσφατες πληροφορίες και να ενημερώνονται συνεχώς. Η αυξανόμενη υιοθέτηση, οι εξελισσόμενες και διαφορετικές μορφές ψηφιακών μορφών, καθώς και το μεγάλο ενδιαφέρον και ανάγκη για χρήση αυτών των δεδομένων, κατέστησαν σαφές ότι η ανάκτηση δεδομένων του αφηγηματικού κειμένου που περιέχεται στις ψηφιακές φόρμες και τη βιβλιογραφία είναι αναπόφευκτη. Ένα παράδειγμα είναι το NLP, επειδή οι ψηφιακές φόρμες περιέχουν απρόβλεπτη ποικιλία εισόδων που περιπλέκει τις κλασικές τεχνικές που εφαρμόζονται σε άλλες περιπτώσεις εξαγωγής κειμένου και δεδομένων. Ωστόσο, όλες οι προηγούμενες προσεγγίσεις βασίστηκαν στη λογική της αποθήκευσης και ανάκτησης δεδομένων εισόδου φύλου, παρέχοντας ουσιαστικά μια στατιστική απάντηση στο σύνολο των λέξεων για το φύλο που ταιριάζουν με τις λέξεις-κλειδιά που επιλέχθηκαν από τον ερευνητή από μια προεπιλεγμένη λίστα. Επιπλέον, το αποτέλεσμα κάθε εργαλείου είναι απλώς ένα δυνητικό φύλο που αντιστοιχεί σε ένα τμήμα επιλεγμένων λέξεων-κλειδιών. Στόχος της παρούσας εργασίας είναι η μελέτη τεχνικών εξόρυξης κειμένου και η ανάπτυξη εργαλείου για την ανάλυση των ποιοτικών χαρακτηριστικών σε πολυγλωσσικά δεδομένα που συλλέχθηκαν μέσω περισσότερων από 650.000 ερωτηματολογίων που υπήρχαν διαθέσιμα. Η έρευνα ακολούθησε μια διαδικασία ανάκτησης πληροφοριών που συγκεντρώνει την ποικιλία των εισροών των δεδομένων, τις μεταφράζει και με βάση την απόσταση που παρουσιάζει κάθε λήμμα από το στέλεχος της λέξης, αποφασίζει για το αποτέλεσμα.
Description
Keywords
Ανάλυση φυσικής γλώσσας, Μηχανική μάθηση, Ανάλυση πολυγλωσσικού κειμένου, Πολυγλωσσικά κείμενα, Εξόρυξη πτυχών, Απόσταση levenshtein, Λανθάνουσα κατανομή dirichlet
Citation