Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/10385
Title: Υπολογιστικά ζητήματα για γράφους του Twitter
Other Titles: Computational aspects on graphs from Twitter
Authors: Παπασωτηρόπουλος, Γεώργιος
Keywords: Επιστήμη δικτύων
Θεωρία γράφων
Keywords (translated): Networks science
Graph theory
Abstract: Τα τελευταία χρόνια, λόγω των πολιτικών, κοινωνικών και στρατιωτικών εξελίξεων σε χώρες της Μέσης Ανατολής και της Βόρειας Αφρικής, το προσφυγικό ζήτημα αποτελεί ένα από τα μείζονα θέματα συζήτησης και προβληματισμού παγκοσμίως. Ένας από τους χώρους τέτοιων συζητήσεων είναι η υπηρεσία κοινωνικής δικτύωσης Twitter, η οποία δίνει τη δυνατότητα σε κάθε χρήστη (κάθε χώρας, κάθε γλώσσας) να μοιραστεί με άλλους τη γνώμη του σε όποιο θέμα επιλέξει, με ένα μόνο μήνυμα, το επονομαζόμενο "tweet". Το hashtag \#refugeeswelcome αποτέλεσε την μαζική, μέσω διαδικτύου, υποστήριξη των προσφύγων και ένα από τα πιο διαδεδομένα (με εκατομμύρια tweets) θέματα συζήτησης στο Twitter. Παρότι υπήρχαν καθημερινά χρήστες που μιλούσαν για αυτό, παρατηρήθηκαν κορυφώσεις τόσο κατά τη διάρκεια όσο και λίγο μετά από συγκεκριμένα γεγονότα. Για την παρούσα διπλωματική εργασία επιλέχθηκε το περιστατικό του πνιγμού του 3-χρονου, Συριακής καταγωγής, Κουρδικής εθνικότητας, Aylan Kurdi, την 2η Σεπτεμβρίου 2015 στη Μεσόγειο, στα παράλια της τουρκικής πόλης Bodrum (Αλικαρνασσός) που σχημάτισε το hashtag \#AylanKurdi. Στο πρώτο μέρος της παρούσας διπλωματικής εργασίας δίνεται μία συνοπτική περιγραφή της πολιτικής κατάστασης που προηγήθηκε του \#refugeeswelcome όπως επίσης και της υπόθεσης πίσω από το \#AylanKurdi, όπως αυτή καλύφθηκε από τα διεθνή Μέσα Μαζικής Ενημέρωσης. Ταυτόχρονα παρουσιάζεται μία σύντομη ανάλυση του ρόλου που έχουν ή που θα μπορούσαν να έχουν τα κοινωνικά δίκτυα στις κοινωνικές κινητοποιήσεις σήμερα. Το δεύτερο μέρος της εργασίας αποτέλεσε η συλλογή δεδομένων από το μέσο κοινωνικής δικτύωσης Twitter, η οπτικοποίηση και η περιγραφική στατιστική αυτών με τη βοήθεια των γλωσσών προγραμματισμού Python και Ruby, μέσα από τα υπολογιστικά περιβάλλοντα Jupyter, Beaker και Zeppelin Notebook. Σε αυτό αρχικά παρουσιάζονται οι μέθοδοι εξόρυξης δεδομένων από τα APIs που παρέχει το Twitter. Επειδή τα tweets του \#AylanKurdi συλλέχθηκαν ένα έτος μετά την εμφάνισή τους, το Web Scaping, μέσω της σύνθετης αναζήτησης του Twitter, ήταν αυτό που εφαρμόστηκε για τη συλλογή των δεδομένων. Συνολικά αποκτήθηκαν πάνω από 120 χιλιάδες tweets που όλα περιλάμβαναν το \#AylanKurdi και είχαν δημοσιευτεί στο διάστημα 2-20 Σεπτεμβρίου 2015. Από τα δεδομένα που περιείχαν τα tweets αυτά, παρουσιάζονται τα αποτελέσματα μίας στατιστικής ανάλυσης που έγινε και περιέχει τις χρονοσειρές (και τους χάρτες) για: το πλήθος των tweets, το πλήθος των tweets ανά χρήστη, το πλήθος των ανατροφοδοτούμενων tweets (retweets), το πλήθος των hashtags, το πλήθος των αναφορών χρηστών, το πλήθος των tweets ανά γλώσσα, το πλήθος των φωτογραφιών και βίντεο, το πλήθος των συχνότερα εμφανιζόμενων hashtags, ανάλυση συναισθήματος (ως προς την υποκειμενικότητα και την πόλωση) του περιεχομένου των tweets, χάρτες των τοποθεσιών προέλευσης των tweets. Το τρίτο μέρος της εργασίας αποτέλεσαν οι υπολογισμοί πάνω σε γράφους, μέσω της γλώσσας προγραμματισμού Python και του υπολογιστικού περιβάλλοντος Jupyter Notebook. Από τα hashtags και τις αναφορές χρηστών που συμπεριλάμβαναν τα tweets δημιουργήθηκαν αντίστοιχα οι γράφοι με βάρη ακμών: ένας μη κατευθυνόμενος γράφος και ένας κατευθυνόμενος γράφος, οι οποίοι μετά από αποκοπή σύμφωνα με τα βάρη ακμών τους (σε κάθε υπογράφο παρέμεναν μόνο οι ακμές -και οι κορυφές που αυτές ένωναν- με βάρος μεγαλύτερο από ένα δεδομένο) δημιούργησαν : 141 νέους μη κατευθυνόμενους γράφους συνεμφανιζόμενων hashtags και 19 νέους κατευθυνόμενους γράφους αναφορών χρηστών, στους οποίους έγιναν οι υπολογισμοί της θεωρίας γράφων για: την πυκνότητα γράφων, τις κατανομές των βαθμών κόμβων, τις συνδεδεμένες συνιστώσες των γράφων, τις κεντρικότητες κόμβων και τις κεντρικοποιήσεις των γράφων, την ταξινομησιμότητα βαθμού των γράφων, τον διαμερισμό σε κοινότητες των γράφων. Στο τελευταίο μέρος της εργασίας, βρίσκουμε την στατιστική συσχέτιση μεταξύ όλων των μεταβλητών που αναφέρθηκαν νωρίτερα. Στο παράρτημα δίνονται οι υπερδεσμοί για τους κώδικες που χρησιμοποιήθηκαν για όλους τους παραπάνω στατιστικούς και δικτυακούς υπολογισμούς.
Abstract (translated): During the last few decades, because of political, social and military developments in Middle East and North Africa countries, the issue of refugees constitutes one of the major topics of world--wide discussion and speculation. A space over which this issue is discussed is Twitter, a well--known social networking service of social media, that provides opportunities to each user (in every country and language) to share opinions on any selected topic of interest, by sending a single message, called ''tweet''. The hashtag \#refugeeswelcome has hosted a massive online support of refugees becoming one of the most spread and trending topics of discussion in Twitter (through millions of tweets). Although there was a constant flow of daily discussions on this topic, one could discern distinct peaks during or following the occurrence of particular events on the refugee matters. In this thesis, we have chosen the case of Aylan Kurdi, who was a three--year--old Syrian boy of Kurdish ethnic background whose image made global headlines after he drowned on 2 September 2015 in the Mediterranean Sea near Bodrum Turkey. This case immediately became the very popular trending hashtag \#AylanKurdi. In the first part of the thesis, we are briefly describing the political situation around the \#refugeeswelcome as well as the story of \#AylanKurdi the way it was covered by world--wide media. At the same time, we are discussing briefly the role that social networks may play today, with regards to social movements and mobilizations on global social issues. In the second part of the thesis, we are discussing the technical issues of data collection, visualization and descriptive statistics of Twitter data (tweets). The computational implementation of these technical issues was achieved by using two programming languages, Python and Ruby through three notebook environments, Jupyter, Beaker and Zeppelin. Moreover, we are describing the existing methodologies of data mining from the Twitter Application Interface (API). As a matter of fact, since our \#AylanKurdi data were collected a year after the event, it was Web Scraping from the advanced search pages of the Twitter site the methodology of data collection that we have employed in this thesis. In this way, we have managed to retrieve about 120.000 tweets under the hashtag \#AylanKurdi (as the corresponding search key--word) that had circulated in the period September 2 -- 20, 2015. For this purpose we made a statistical analysis of the following time series (and maps) about: the number of tweets, the number of tweets per user, the number of reposted tweets (retweets), the number of hashtags, the number of user mentions, the number of tweets per language, the number of photos and videos contained in tweets, the number of frequently co-occurent with \#AylanKurdi hashtags, sentiment analysis (subjectivity and polarity) of the text of gathered tweets, maps of geolocations. In the third part of the thesis, we dealt with computations from network and graph theory, by using the programming language Python through the Jupyter Notebook environment. Hashtags and user mentions contained in tweets built: an undirected weighted graph of co-occurring hashtags and a directed weighted graph of user mentions. The technique of edge-cutting (when the weight of edges is lower than a given value) has created the following subgraphs of the above mentioned graphs: 141 undirected weighted graphs of co-occurring hashtags and 19 directed weighted graphs of user mentions, on which the following graph--theoretic computations were implemented: densities node degree distributions, connected components, node centralities and graph centralizations, degree assortativity, partition in communities. Finally, we are computing the statistical correlation between all of the above mentioned variables. In the appendix we are giving the links for the code repositories that we were using in order to collect data and to process all the statistical and graph-theoretic computations.
Appears in Collections:Τμήμα Μαθηματικών (ΔΕ)

Files in This Item:
File Description SizeFormat 
Nemertes_Papasotiropoulos(math).pdf3.16 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.