Please use this identifier to cite or link to this item:
Title: Μελέτη και αξιολόγηση τεχνικών κατηγοριοποίησης συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο
Authors: Δήμου, Ελένη
Keywords: Ανάλυση συναισθήματος
Πολικότητα κειμένου
Μηχανική μάθηση
Πολυωνυμικός «Αφελής» Bayes
Μηχανές διανυσμάτων υποστήριξης
Keywords (translated): Analysis
Text polarity
Machine learning
Multinomial naive bayes
Support vector machines
SentiWordNet 3.0
Abstract: Η άνθηση του διαδικτύου ανέδειξε νέα εργαλεία επικοινωνίας και διαύλους ανταλλαγής απόψεων. Η ανάγκη αξιοποίησης, μέσω αυτοματοποιημένων τεχνικών, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, οδήγησε στην Εξόρυξη Γνώσης από Κείμενο (Text Mining) και στην Ανάλυση Συναισθήματος (Sentiment Analysis). Στόχος της Ανάλυσης Συναισθήματος, είναι η ανίχνευση της πολικότητας ενός κειμένου, με σκοπό την εξαγωγή της υποκειμενικής άποψης του συγγραφέα, ως προς το θέμα του κειμένου. Στην παρούσα εργασία παρουσιάζεται μία συγκριτική μελέτη μοντέλων κατηγοριοποίησης συναισθήματος, δεδομένων που προέρχονται από ιστοσελίδες κριτικής ταινιών (IMDb, Rotten Tomatoes) και από το Twitter. Δύο αλγόριθμοι, από την Επιβλεπόμενη Μηχανική Μάθηση, αποτελούν τη βάση των ταξινομητών, ο Πολυωνυμικός «Αφελής» Bayes (Multinomial Naive Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM). Επιπρόσθετα, διερευνάται η μεταβολή ορισμένων παραμέτρων, με σκοπό τη βελτίωση της απόδοσης των μοντέλων. Τέλος, προτείνεται η ενσωμάτωση του λεξικού πόρου SentiWordNet 3.0, στο μοντέλο ταξινόμησης των δεδομένων από το Twitter, σε συνδυασμό με τον καθαρισμό των tweets και τη γλωσσολογική ανάλυση των μηνυμάτων, καθώς οδηγεί σε περαιτέρω βελτίωση του ταξινομητή. Τα μοντέλα κατηγοριοποίησης συναισθήματος υλοποιούνται στο προγραμματιστικό περιβάλλον της Python.
Abstract (translated): The Internet bloom revealed new communication tools and channels of opinions exchange. The need to exploit, through automated techniques, the huge amount of data in text format, led to Text Mining and Sentiment Analysis. The Analysis Sentiment aims to detect the polarity of a text, in order to export the subjective opinion of the author on the topic. This paper presents a comparative study of sentiment classification models, on data derived from movie reviews websites (IMDb, Rotten Tomatoes) and from Twitter. In order to build our classifiers, we use two algorithms, from the Supervised Machine Learning (Multinomial Naive Bayes and Support Vector Machines). Moreover, we explore how to improve the effectiveness of the model, by varying certain parameters. Finally, we propose the incorporation of the dictionary SentiWordNet 3.0, along with cleaning tweets and linguistic analysis of messages, as improves the classifier's performance. The sentiment classification models implemented using Python.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
Dimou(math).pdf1.36 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.