Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14050
Title: Efficient algorithms for big data management
Other Titles: Αποδοτικοί αλγόριθμοι διαχείρισης μεγάλου όγκου δεδομένων
Authors: Δρίτσας, Ηλίας
Keywords: Bloom filters
Privacy preserving
K-NN queries
K-anonymity
Spatiotemporal batabases
Sentiment analysis
Twitter
Apache spark
Geospark
Keywords (translated): Φίλτρα bloom
Διατήρηση ιδιωτικότητας
Ερωτήματα κοντινότερων γειτόνων
k ανωνυμία
Χωροχρονικές βάσεις δεδομένων
Ανάλυση συναισθήματος
Abstract: In the context of the doctoral research, I dealt with data management problems by developing methods and techniques that, on the one hand, maintain or improve the privacy and anonymity of users and, on the other hand, are efficient in terms of time and storage space for large volumes of databases. The research results of the work focus on the following: Evaluate the performance of queries in a large volume database using or not the Bloom Filter structure. Evaluate workload time, memory and disk usage of the Privacy Preserving Record Linkage (PPRL) problem in Hadoop MapReduce Framework. Methods of answering queries of nearest neighbors to spatio-temporal data (moving users trajectories) in order to preserve anonymity, where queries are applied to clustered or non-clustered data. The k anonymity method was used, where, the set of anonymity with which each moving object of the space-time database is being camouflaged, consists of its k nearest neighbors. The robustness of the method was quantified with a probability of 1/k and the effect of dimensionality and correlation of the data on the preservation of anonymity and privacy was studied. The above method was improved in terms of efficient storage of spatio-temporal data by applying queries of nearest neighbors to Hough transformed nonlinear trajectories of moving objects. The application of secure k-NN queries was evaluated in the GeoSpark environment. Sentiment Analysis on Twitter Data and Tourist Forecasting at Apache Spark
Abstract (translated): Στο πλαίσιο της διδακτορικής έρευνας, ασχολήθηκα με προβλήματα διαχείρισης δεδομένων αναπτύσσοντας μεθόδους και τεχνικές που, αφενός, διατηρούν ή βελτιώνουν το απόρρητο και την ανωνυμία των χρηστών και, από την άλλη πλευρά, είναι αποτελεσματικές ως προς το χρόνο και τον αποθηκευτικό χώρο για μεγάλου όγκου βάσεων δεδομένων. Τα ερευνητικά αποτελέσματα της εργασίας επικεντρώνονται στα ακόλουθα: Αξιολόγηση της απόδοσης των ερωτημάτων σε μια βάση δεδομένων μεγάλου όγκου χρησιμοποιώντας ή όχι τη δομή φίλτρου Bloom. Αξιολόγηση του χρόνου φόρτου εργασίας, μνήμης και χρήσης δίσκου της Προστατευόμενης Διασύνδεσης Εγγραφών (PPRL) στο Hadoop MapReduce Πλαίσιο. Μέθοδοι απάντησης ερωτημάτων κοντινότερων γειτόνων σε χωροχρονικά δεδομένα (τροχιές κινούμενων χρηστών) για να διατηρηθεί η ανωνυμία, όπου εφαρμόζονται ερωτήματα σε συσταδοποιημένα ή μη δεδομένα. Χρησιμοποιήθηκε η μέθοδος k ανωνυμίας, όπου, το σύνολο της ανωνυμίας με το οποίο το κάθε το κινούμενο αντικείμενο της χωροχρονικής βάσης δεδομένων καλύπτεται, αποτελείται από τους k πλησιέστερους γείτονες του. Η σθεναρότητα της μεθόδου ποσοτικοποιήθηκε με την πιθανότητα 1/k και μελετήθηκε η επίδραση της διαστασιμότητας και του συσχετισμού των δεδομένων στη διατήρηση της ανωνυμίας και της ιδιωτικότητας. Η παραπάνω μέθοδος βελτιώθηκε όσον αφορά την αποτελεσματική αποθήκευση χωροχρονικών δεδομένα εφαρμόζοντας ερωτήματα πλησιέστερων γειτόνων στις κατά Hough μετασχηματισμένες μη γραμμικές τροχιές κινούμενων αντικειμένων. Αξιολογήθηκε η εφαρμογή ασφαλών ερωτημάτων k-NN στο περιβάλλον GeoSpark. Ανάλυση συναισθημάτων σε δεδομένα Twitter και πρόβλεψη τουριστικής ζήτησης στο Apache Spark.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΔ)

Files in This Item:
File Description SizeFormat 
PhD_thesis_Elias_Dritsas.pdf2.41 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.