Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/9035
Title: Αποδοτική υλοποίηση αλγόριθμων διαχείρισης πληροφορίας σε cloud περιβάλλοντα
Other Titles: Efficient implementation of information management algorithms in cloud environments
Authors: Πισπιρίγκος, Γεώργιος
Keywords: Αλγόριθμοι
Επεξεργασία δεδομένων
Keywords (translated): Hadoop
Map-Reduce
XML filtering,
Community Detection
YFilter
Abstract: Η ραγδαία ανάπτυξη του παγκόσμιου ιστού έχει ως αποτέλεσμα την παραγωγή, σε υπερβολικά μεγάλο ρυθμό, διαθέσιμης πληροφορίας, η οποία με την πάροδο του χρόνου έχει καταστεί δύσκολα διαχειρίσιμη. Τα παραδοσιακά συστήματα δεν μπορούν να αντεπεξέλθουν στην επεξεργασία της πληροφορίας και του όγκου των δεδομένων με το ρυθμό που παράγονται από ορισμένες εφαρμογές, με αποτέλεσμα να μην υπάρχει αποδοτική μέθοδος επεξεργασίας. Η αντιμετώπιση τους προσανατολίζεται στο σχεδιασμό και την ανάπτυξη αποδοτικών και κλιμακώσιμων εφαρμογών επεξεργασίας τεράστιου όγκου πληροφορίας, χρήσει συστημάτων υπολογιστικών νεφών, εκμεταλλευόμενοι τα συστήματα παράλληλης επεξεργασίας δεδομένων μεγάλης ποσότητας που είναι διαθέσιμα, όπως το framework MapReduce. Το ενδιαφέρον της παρούσας διπλωματικής εργασίας επικεντρώνεται στο σχεδιασμό και την υλοποίηση αποδοτικών και κλιμακώσιμων αλγόριθμων για την επίλυση δύο καθημερινών προβλημάτων επεξεργασίας: • του XML filtering προβλήματος το οποίο ασχολείται αφενός με την δεικτοδότηση των δεδομένων εκείνων που σχετίζονται με τα ερωτήματα ενδιαφέροντος των χρηστών, και αφετέρου με την εύρεση όλων των user profiles εκείνων που θα τους ενδιέφερε ένα συγκεκριμένο XML αρχείο, και • του προβλήματος εύρεσης χρηστών και υποδικτύων μέγιστης επιρροής στα κοινωνικά δίκτυα. Αναφορικά με το πρώτο πρόβλημα, πραγματοποιείται ο σχεδιασμός και η υλοποίηση μιας νέας παραλλαγής του αλγόριθμου YFilter στο σύστημα επεξεργασίας δεδομένων μεγάλης κλίμακας MapReduce και η σύγκριση της με 2 υπάρχουσες. Ενώ ως προς το δεύτερο, υλοποιείται, σε περιβάλλον υπολογιστικού νέφους, το σύστημα T-Pice, που επεκτείνει την έννοια της επιρροής και της συγκέντρωσης της πληροφορίας στα κοινωνικά δίκτυα εξετάζοντας και συνυπολογίζοντας την προσωπικότητα των επιμέρους χρηστών ως βασικό χαρακτηριστικό.
Abstract (translated): Web's rapid growth leads to the generation of an excessive mass of information per day, which processing is available for providing insights to various sections. Although, the daily generated volume of information seems to be unmanageable, since the existing traditional systems cannot cope with processing and analyzing the information data produced with the rhythm that they are generated by certain applications. As informationweek.com mentions, only 12% of available information has been analyzed yet. Therefore, the need of managing and efficiently processing existing information has led to the design and development of efficient and scalable data processing applications, which leverages the new existing cloud computing systems and frameworks, such as Hadoop MapReduce. The interest of this thesis focuses on the design and implementation of efficient and scalable algorithms for solving two daily processing problems: 1. The XML filtering problem which deals with data indexing and extraction of information that users are interested in and 2. The identification of influential communities of users in social networks such as Twitter. Regarding the 1st problem, we proceed to the design and implementation of 3 different variant methods that process XML datasets according to YFilter algorithm in Hadoop MapReduce large-scale processing system. The results of this research led to the publication of "Distributed XML Filtering Using HADOOP Framework" on the International Workshop on Algorithmic Aspects of Cloud Computing, Algo 2015 - Algocloud in September 2015, in Patras, Greece. Regarding the 2nd problem, we proceeded to the design and implementation of the Twitter Personality based Influential Communities Extraction (TPice) system, leveraging the existing Hadoop MapReduce large-scale processing framework, that tries to extract the best influential communities in a Twitter network graph considering except for graph's edge consistency, the users’ personality as well.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)

Files in This Item:
File Description SizeFormat 
Anafora.pdf2.08 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons