Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/8157
Title: Ανάπτυξη μεθόδων αυτόματης αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκοσμίου ιστού
Authors: Μαλαγκονιάρη, Διονυσία
Issue Date: 2014-12-15
Keywords: Εξόρυξη δεδομένων
Παγκόσμιος ιστός
Φύλο χρήστη
Μηχανική μάθηση
Keywords (translated): Data mining
World Wide Web
UCG
WEKA
Abstract: Είναι γεγονός ότι ολοένα και περισσότεροι άνθρωποι επιλέγουν καθημερινά να χρησιμοποιήσουν τον Παγκόσμιο Ιστό προκειμένου να εκτελέσουν ένα ευρύ φάσμα δραστηριοτήτων το οποίο προσφέρεται μέσα από αυτόν. Ο αριθμός των χρηστών του διαδικτύου αυξάνεται συνεχώς, καθώς επίσης και το σύνολο των ποικίλων δραστηριοτήτων που μπορούν να εκτελεστούν μέσω των ιστοσελίδων. Όμως, έχει παρατηρηθεί ότι τα τελευταία χρόνια πέρα από πηγή πληροφόρησης, ο Παγκόσμιος Ιστός αποτελεί και ένα σημαντικότατο μέσο έκφρασης για τους ανθρώπους αλλά και επικοινωνίας μεταξύ τους. Εκατομμύρια χρηστών του Παγκόσμιου Ιστού χρησιμοποιούν καθημερινά εφαρμογές του διαδικτύου μέσω των οποίων αλληλεπιδρούν. Κάθε ένας λοιπόν από αυτούς τους χρήστες μπορεί ελεύθερα να εκφράσει την άποψή του πάνω σε διάφορα ζητήματα που τον απασχολούν, να σχολιάσει της απόψεις των άλλων χρηστών αλλά και να επικοινωνήσει με αυτούς. Σύμφωνα με τα παραπάνω λοιπόν, οι χρήστες του διαδικτύου μπορούν να επιλέξουν ανάμεσα σε πολλά μέσα που είναι διαθέσιμα όπως ιστολόγια, φόρουμ, ιστότοπους και μέσα κοινωνικής δικτύωσης προκειμένου να επικοινωνούν. Αρκετό ερευνητικό ενδιαφέρον παρουσιάζει η συλλογή, ανάλυση και αξιολόγηση δεδομένων από τον Παγκόσμιο Ιστό που έχουν παραχθεί από χρήστες. Επίσης ιδιαίτερο ενδιαφέρον παρουσιάζει ο συσχετισμός του χρήστη με το κείμενο που έχει παράξει, και η αναγνώριση κάποιων κοινωνικών χαρακτηριστικών του, όπως για παράδειγμα, αν ο χρήστης του κειμένου χ είναι άνδρας ή γυναίκα. Μια τέτοια αναγνώριση είναι δυνατή με τον εντοπισμό αντιπροσωπευτικών γνωρισμάτων ανδρικής ή γυναικείας γραφής και λόγου σε κειμενικά δεδομένα χρηστών. Η μελέτη λοιπόν των χαρακτηριστικών του περιεχομένου το οποίο έχει παραχθεί από χρήστες είναι κομβικό σημείο σε μια σειρά ερευνητικών πεδίων. Χαρακτηριστικό παράδειγμα αποτελούν οι μελέτες στα πλαίσια του πεδίου της εξόρυξης πληροφορίας (text mining), οι οποίες βασίζονται στο περιεχόμενο των χρηστών για να αλιεύσουν τις απόψεις για ένα θέμα ή για ένα προϊόν. Ως αποτέλεσμα λοιπόν, της συνεχώς αυξανόμενης δραστηριοποίησης των χρηστών είναι η συνεχής αύξηση του όγκου δεδομένων που έχουν παραχθεί από χρήστες (User Generated Content - UGC) στις ιστοσελίδες του Παγκόσμιου Ιστού. Συγκεκριμένα, το πεδίο UGC ([1],[2]) ασχολείται με την αναγνώριση και εξόρυξη web περιεχομένου που έχει παραχθεί από τους χρήστες. Σε αυτό το σημείο είναι σημαντικό να αναφέρουμε ότι οι παραπάνω μελέτες που αναφέραμε είναι αρκετά χρήσιμες στην ανάπτυξη ερευνητικών αλλά και εμπορικών εφαρμογών. Στόχος της προτεινόμενης διπλωματικής εργασίας είναι η μελέτη δεδομένων κειμένου τα οποία θα αντλήσουμε από τον Παγκόσμιο Ιστό, εστιάζοντας στα διαφοροποιητικά χαρακτηριστικά που θα εντοπιστούν τα οποία στη συνέχεια θα βοηθήσουν στην υλοποίηση του συστήματος το οποίο θα μπορεί με όσο το δυνατόν μεγαλύτερο ποσοστό ακρίβειας να εντοπίζει το φύλο του χρήστη που έχει δημιουργήσει κείμενο στον Παγκόσμιο Ιστό. Μια τέτοια προσπάθεια είναι ιδιαίτερα ενδιαφέρουσα και σημαντική, καθώς καλείται να συμβάλλει στην ερευνητική δραστηριότητα σε αυτό το σχετικά νέο πεδίο ([3], [4]). Η αναγνώριση του φύλου ενός χρήστη, χωρίς σε καμία περίπτωση να θίγεται η ανωνυμία του και τα προσωπικά του δεδομένα, βασίζεται μόνο σε κειμενικά του δεδομένα μπορεί να αποτελέσει ένα ιδιαίτερο εργαλείο με πολλές εφαρμογές. Μια σημαντική εφαρμογή αυτού εργαλείου μπορεί να αποτελέσει και η στοχευμένη διαφήμιση. Στα πλαίσια της προτεινόμενης διπλωματικής θα ακολουθηθούν τα παρακάτω βήματα. Αρχικά θα μελετηθεί η απαραίτητη βιβλιογραφία, η οποία θα μας παρέχει την απαραίτητη θεωρητική γνώση των επιστημονικών πεδίων που αφορούν στην έρευνά μας, αλλά και τις υπάρχουσες μεθοδολογίες και τεχνικές. Στη συνέχεια θα προχωρήσουμε με τη συλλογή των δεδομένων που θα χρησιμοποιήσουμε κατά τη διάρκεια της εργασίας μας. Από τα κειμενικά δεδομένα που θα συλλέξουμε αλλά και τη βιβλιογραφική επισκόπηση θα προκύψει και η αναγνώριση και η εξαγωγή των χαρακτηριστικών που θα μας βοηθήσουν στην ανίχνευση του γυναικείου/ανδρικού λόγου σε ένα δοκιμαστικό σύνολο δεδομένων. Το επόμενο βήμα θα αποτελεί η ανάπτυξη μετρικών κατηγοριοποίησης κειμένων χρήστη ανάλογα με το φύλο του. Τελειώνοντας, θα αξιολογηθεί αυτή η προσπάθεια κατηγοριοποίησης, ώστε να υλοποιηθεί κατάλληλο σύστημα αναγνώρισης του φύλου χρηστών σε κείμενα του Παγκόσμιου Ιστού.
Abstract (translated): It is a fact that more and more people choose daily to use the World Wide Web to perform a wide range of activities which are offered through it. The number of internet users is increasing, as well as all the various activities that can be performed through the WebPages. However, it has been observed recently that apart from an information source, the Web is a very important expression tool for people and communication between them. Millions of web users use daily internet applications through which they interact. Each of these users can freely express his opinion on various issues that concern him, to comment on the opinions of other users and communicate with them. According to the above, Internet users can choose among many available means to communicate such as blogs , forums , websites and social media. The collection, analysis and evaluation of data from the Web produced by users, is interesting in terms of research. Also of particular interest is the correlation between the user and the text that has produced, and the recognition of some social features, such as if the user of the text x is a man or woman. Such recognition is possible by identifying representative features of male or female writing and speech in user’s text data. Therefore the study of content characteristics that have been produced by users is a key point in a number of research fields. An example are the studies within the field of data mining (text mining), which are based on the users content in order to fish their opinions on a topic or product. As a result, the growing user activity is constantly increasing the volume of data generated by users (User Generated Content - UGC) sites on the Web. Specifically, the scope UGC ([1], [2]) deals with the recognition and extraction of web content produced by users. At this point it is important to mention that the above studies are quite useful in developing research and commercial applications. The purpose of this project is to analyze the text data that we took from the Web, focusing on distinctive features that will be identified, which will later help to be implemented into the system resulting in the gender of the user who created the text on the Web. Such effort is particularly interesting and important, as contributes to research in this relatively new field ( [3 ] , [4 ] ) . Recognizing the gender of a user, without in any way affecting the anonymous and personal data, based only on text data can be a special tool with many applications. A major application of this tool can also be targeted advertising. This thesis will follow the steps below. Initially we will study the necessary literature, which will provide us with the necessary theoretical knowledge in scientific fields related to our research, but also the existing methodologies and techniques. Then we will proceed with the collection of data that will be used during our work. From the text data we collected and literature review, the recognition and extraction of features will occur that will help us to detect the female / male ratio in a test dataset. The next step is to develop categorizing text metrics according to user’s gender. Finally, we evaluate this categorization effort in order to implement an appropriate system that identifies the sex of users in texts of the Web.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
MSc Malagkoniari Dionysia A.M.831.pdf1.81 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.