Please use this identifier to cite or link to this item:
http://hdl.handle.net/10889/13352
Title: | Υλοποίηση των μοντέλων LDA και Word2Vec και σύγκριση των εργαλείων TMG και text analytics |
Other Titles: | Implementation of the LDA and Word2Vec models and comparison of the TMG and text analytics toolboxes |
Authors: | Ζαραφέτα, Κυριακή-Ηλέκτρα |
Keywords: | Πιθανολογικό θεματικό μοντέλο Δειγματοληψία Gibbs Μηχανική μάθηση Εξόρυξη κειμένου Επεξεργασία φυσικής γλώσσας Νευρωνικό δίκτυο Διανυσματική αναπαράσταση λέξεων Μοντέλο Word2Vec Text-to-Matrix generator Text analytics |
Keywords (translated): | LDA Probabilistic topic model Gibbs sampling Machine learning Text mining Natural language processing Neural network Word embeddings Word2Vec model Text-to-matrix generator Text analytics |
Abstract: | Τα τελευταία χρόνια στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing) και της Ανάκτησης Πληροφορίας (Information Retrieval), δημιουργούνται σε τακτά χρονικά διαστήματα καινούργια εργαλεία λογισμικού για την εφαρμογή τεχνικών Μηχανικής Μάθησης (Machine Learning). Επιπλέον, τα ήδη υπάρχοντα εργαλεία λογισμικού ενημερώνονται διαρκώς με νέες τεχνικές του τομέα αυτού. Αρχικός στόχος αυτής της διπλωματικής εργασίας ήταν η υλοποίηση των μοντέλων Latent Dirichlet Allocation (LDA) και Word2Vec και η προσθήκη αυτών στο εργαλείο λογισμικού Text-to-Matrix Generator (TMG). Όσον αφορά το μοντέλο LDA, αναπτύχθηκε με σκοπό την παροχή προς τον χρήστη ενός επιπλέον τρόπου για εξαγωγή θέματος. Επιπρόσθετα, η τεχνική ανάκτησης Word2Vec, και πιο συγκεκριμένα το μοντέλο Skip-Gram, υλοποιήθηκε για την διανυσματική αναπαράσταση των λέξεων ενός κειμένου ή μίας συλλογής κειμένων και αποτελεί μία τεχνική υψηλού ενδιαφέροντος στον τομέα. Στη συνέχεια, λόγω της ανάπτυξης του εργαλείου λογισμικού Text Analytics από την MathWorks θεωρήθηκε σημαντική η σύγκριση αυτού με το TMG για τον εντοπισμό κοινών και διαφορετικών εργασιών. Πιο συγκεκριμένα, πραγματοποιήθηκε σύγκριση στις βασικές λειτουργίες των εργαλείων, όπως είναι η προεπεξεργασία των κειμενικών δεδομένων, και στη συνέχεια σε περαιτέρω εργασίες που παρέχουν, όπως είναι η εξαγωγή του θέματος. Η σύγκριση αυτή βασίστηκε και στην εγκυρότητα των αποτελεσμάτων, αλλά και στην χρονική επίδοση. |
Abstract (translated): | The main objectives of this thesis are the MATLAB implementation of the Latent Dirichlet Allocation (LDA) and Word2Vec models and their incorporation in the Text-to-Matrix Generator (TMG) toolbox. The thesis reviews these methods and discusses their TMG implementation. LDA provides TMG users the ability to conduct topic extraction from text collections. Word2Vec and specifically the Skip-Gram version, allows vector representations of words from documents or text collections and has been shown to be particularly effective for several text mining applications. The thesis, also, presents experiments on a dataset from Wikipedia using the enhanced TMG toolbox and compares its features and results with those obtained using the \texttt{Mathworks} Text Analytics toolbox. |
Appears in Collections: | Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Thesis_Zarafeta.pdf | 1.68 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.