Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14010
Title: Χρήση ομαδοποιημένου ταξινομητή για αναγνώριση συναισθημάτων από κείμενο
Other Titles: Using ensemble of classifiers for sentiment analysis
Authors: Μαρκάτος, Βασίλειος
Keywords: Ανάλυση συναισθημάτων από κείμενο
Ταξινόμηση συναισθημάτων
Ομαδοποιημένοι ταξινομητές
Keywords (translated): Sentiment analysis
Text classification
Ensemble classifiers
Abstract: Αντικείμενο διαπραγμάτευσης της εργασίας είναι η ανάλυση και η πρόβλεψη συναισθημάτων από γραπτά σχόλια μικρού μήκους μέσω του κοινωνικού δικτύου Twitter.Η εξαγωγή συναισθημάτων, μπορεί να επιτευχθεί με διάφορες προσεγγιστικές μεθόδους, οι πιο δημοφιλείς είναι οι στατιστικές μέθοδοι, αυτές της λεξιλογικής προσέγγισης και της μηχανικής μάθησης με την οποία επιλέξαμε να ασχοληθούμε . Τα μοντέλα της μηχανικής μάθησης, ανάλογα με τον τρόπο που επεξεργάζονται τα δεδομένα για την εκπαίδευσή τους, διακρίνονται σε τρείς βασικές κατηγορίες οι οποίες είναι: η επιβλεπόμενη μάθηση, η μη επιβλεπόμενη και η ημι-επιβλεπόμενη μάθηση. Στην επιβλεπόμενη μάθηση ,το μοντέλο εκπαιδεύεται και "μαθαίνει" από το σύνολο δεδομένων, δηλαδή, η πρόβλεψη κάποιου άγνωστου στοιχείου , εξαρτάται σε μεγάλο βαθμό από την αξιοπιστία του δείγματος. Συνεπώς, είναι επιτακτική η ανάγκη για μια ορθή προ επεξεργασία των δεδομένων. Το σύνολο δεδομένων που επεξεργαστήκαμε αποτελείται από 1, 600, 000 tweets τα οποία έχουν ταξινομηθεί σε δύο βασικές κατηγορίες συναισθημάτων(θετικά και αρνητικά ).Εξετάστηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης. Επίσης ,αναλύθηκαν διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η ευρέως διαδεδομένη μέθοδος Bag-of-Words (BOW) με τις δύο βασικές παραλλαγές της την Count Vectorizer και TFIDF Vectorizer .Ο ταξινομητής που επιλέχθηκε για πραγματοποιηθεί η παραπάνω διαδικασία ήταν αυτός της Μέγιστης Εντροπίας. Οι απλοί ταξινομητές που χρησιμοποιήθηκαν είναι επιρρεπής στα σφάλματα. Η βασική ιδέα της μεθοδολογίας των ομαδοποιημένων ταξινομητών είναι να δημιουργηθεί ένα μοντέλο πρόβλεψης το οποίο θα αποτελείται απο ένα σύνολο μοντέλων που θα συνδυαστούν μεταξύ τους μέσω κάποιας διαδικασίας. Σκοπός των ομαδοποιημένων ταξινομητών είναι η μείωση των σφαλμάτων και η βελτίωση της απόδοσης της πρόβλεψης. Υπάρχουν, διάφορες τεχνικές που μπορούν να συνδυαστούν οι ταξινομητές. Η πιο γνωστή είναι η μέθοδος της ψηφοφορίας. Όμως, επειδή δεν είχαμε τα επιθυμητά αποτελέσματα, δημιουργήσαμε έναν ομαδοποιημένο ταξινομητή, ο οποίος αποτελούνταν από τρεις ταξινομητές βάσης (Max Entropy, Multinominal,LSVM) κατά το οποίο οι προβλέψεις τους, χρησιμοποιήθηκαν ως δεδομένα ενός δεύτερου επιπέδου ταξινομητών (Ridge,SGD) κατά των οποίων στη συνέχεια, χρησιμοποίησαν τη τεχνική της ψηφοφορίας για τον τελικό ομαδοποιημένο ταξινομητή. Τέλος, ο ομαδοποιημένος ταξινομητής είναι πιο βελτιωμένος σε σύγκριση με τους απλούς ταξινομητές, έχει όμως περιθώρια βελτίωσης.
Abstract (translated): The object of the work is to analyze and predict emotions from written short comments through the Twitter social network. The extraction of emotions can be achieved by various approach methods, the most popular are the statistical methods, those of the vocabulary approach and machine learning with which we have chosen to deal. The models of machine learning, depending on the way they process the data for their education, are divided into three main categories which are: supervised learning,unsupervised and semi-supervised learning. In supervised learning, which is also the runner-up of the task, the model is trained from the Data Set, that is, the predictionof an unknown element, depends to a large extent on the reliability of the sample. The data set we processed consists of 1,600,000 tweets that have been classified into two main categories of emotions (positive and negative). Various ways of extracting attributes from text data, namely the widely used Bag-of-Words (BOW) method with its two main variants Count Vectorizer and TFIDF Vectorizer, were alsoanalysed. The sorter chosen for the above procedure was that of maximum entropy. Simple sorters used are prone to errors. The basic idea of the methodology of ensemble sorters is to create a forecasting model consisting of a set of models that will be combined with each other through a process. The ultimate goal of grouped sorters is to greatly reduce errors and thus improve the performance of the forecast. The most well-known is the method of voting. However, because they were not sufficient to get the desired results, we created a grouped sorter, consisting of three base sorters (Max Entropy, Multinominal,LSVM) in which their predictions were used as data of a second level sorter (Ridge,SGD) against which they then used the voting technique for the final grouped sorter. Finally, the grouped sorter is more improved than ordinary , of course it has room for improvement.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
Ensemble Cl.pdfUsing ensemble classifiers for sentiment analysis1.49 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.