Μελέτη και αξιολόγηση τεχνικών εξόρυξης πολιτικής γνώμης σε tweets

Thumbnail Image
Date
Authors
Θηβαίος, Γιάννης
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Τα κοινωνικά μέσα δικτύωσης παράγουν τεράστια ποσά δεδομένων κάθε λεπτό, γεγονός το οποίο οφείλεται στη μεγάλη υιοθέτηση και καθημερινή χρήση τους τα τελευταία χρόνια. Έχει δημιουργηθεί λοιπόν η ανάγκη για ευρύτερη αξιοποίησή τους σε διάφορους τομείς της κοινωνικής επιχειρηματικής ζωής. Γι’ αυτό το λόγο δημιουργήθηκαν τεχνικές και αλγόριθμοι για την επεξεργασία κειμένων, όπως η εξόρυξη κειμένου (Text Mining) και η Ανάλυση Συναισθήματος (Sentiment Analysis). Στην παρούσα εργασία, έχουμε συλλέξει ένα σύνολο δεδομένων από το Twitter, για τους 2 βασικούς υποψηφίους των τελευταίων αμερικανικών εκλογών (Donald Trump, Hillary Clinton). Με χρήση τεχνικών επεξεργασίας των κειμένων, προσπαθούμε να βρούμε «δημοφιλείς» λέξεις για κάθε υποψήφιο και να δημιουργήσουμε ένα μηχανισμό πρόβλεψης, με βάση τον οποίο ένα τυχαίο tweet να κατηγοριοποιείται για έναν από τους δύο υποψηφίους ως θετικό ή αρνητικό. Δύο αλγόριθμοι επιβλεπόμενης μάθησης, ο ‘αφελής’ Bayes (Naïve Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM) αποτελούν τη βάση για την παραγωγή των ταξινομητών πρόβλεψης και των οποίων την ακρίβεια συγκρίνουμε. Για την προεπεξεργασία και την εφαρμογή των αλγόριθμων χρησιμοποιείται η βιβλιοθήκη sklearn της Python. Επιπλέον, κάνουμε μια προεπισκόπηση στο εργαλείο Orange3 και ακολουθούμε μια παρεμφερής διαδικασία ανάλυσης του συνόλου δεδομένων και αξιολογούμε την ευχρηστία και την απόδοση του συγκεκριμένου εργαλείου.
Description
Keywords
Εξόρυξη κειμένου, Τουίτερ, Μηχανική μάθηση, Ανάλυση συναισθήματος, Αφελής Bayes, Μηχανές διανυσμάτων υποστήριξης
Citation