Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14343
Title: Αξιολόγηση τεχνικών απόκρυψης προσωπικών δεδομένων κατά την εξόρυξη δεδομένων από βάσεις δεδομένων συναλλαγών
Other Titles: Εvaluation of sensitive data hiding techniques on data mining for transactional databases
Authors: Πανίτσας, Στυλιανός
Keywords: Βάσεις δεδομένων συναλλαγών
Εξόρυξη δεδομένων
Διατήρηση ιδιωτικότητας
Απόκρυψη γνώσης
Ευαίσθητα δεδομένα
Μετρικές αξιολόγησης
Keywords (translated): Transactional databases
Data mining
Privacy preserving data mining
Data hiding
Sensitive data
Evaluation metrics
Python
Abstract: Στην σημερινή εποχή , κάθε επιχείρηση που ασχολείται με συναλλαγές εμπορικού χαρακτήρα διατηρεί τις βάσεις συναλλαγών της. Ο τεράστιος όγκος των δεδομένων που αποθηκεύουν σε συνδυασμό με την πληθώρα τεχνικών που έχουν εφευρεθεί έτσι ώστε να εξάγεται η γνώση από αυτές τις καθιστούν ένα απαραίτητο αντικείμενο για μελέτη σε κάθε επιχείρηση. Οι τεχνικές που βασίζονται πάνω σε αυτές οδηγούν κυρίως στην ανακάλυψη σημαντικών επαναλαμβανόμενων προτύπων που χαρακτηρίζουν την συμπεριφορά των καταναλωτών. Τα αποτελέσματα των μελετών μπορούν να χρησιμοποιηθούν έτσι ώστε να γίνει πιο στοχευμένη διαφήμιση καθώς και να διαμορφωθούν νέες στρατηγικές μάρκετινγκ. Στο πλαίσιο αυτό, οργανισμοί είναι διατεθειμένοι να ανταλλάξουν τα δεδομένα τους , με στόχο το κοινό τους κέρδος. Αυτή η ανταλλαγή των δεδομένων ελλοχεύει κινδύνους. Από την μετέπειτα επεξεργασία των δεδομένων μπορεί να αποκαλυφθούν επιτυχημένες πλέον στρατηγικές ή πρότυπα οι οποίες μπορούν χρησιμοποιηθούν από μη εξουσιοδοτημένους τρίτους με σκοπό να τις ζημιώσουν οικονομικά. Επομένως είναι απαραίτητη η ανάγκη για απόκρυψη των ευαίσθητων δεδομένων. Αυτή η ανάγκη έχει δημιουργήσει ένα νέο επιστημονικό κλάδο, o οποίος προσπαθεί να δώσει λύση στο συγκεκριμένο πρόβλημα. Όλα αυτά τα χρόνια έχουν αναπτυχθεί διαφόρου είδους αλγόριθμοι και τεχνικές οι οποίοι προσπαθούν αποκρύψουν την ευαίσθητη πληροφορία με τις ελάχιστες παράπλευρες απώλειες. Στην συγκεκριμένη διπλωματική εργασία , θα παρουσιάσουμε λεπτομερώς ένα πλήθος από αλγορίθμους απόκρυψης συχνών μοτίβων που βρίσκονται στην μορφή συνολοστοιχείων. Στην συνέχεια εντοπίζουμε μειονεκτήματα σε ορισμένους εξ’ αυτών και προτείνουμε βελτιώσεις. Εξετάζουμε την απόδοση αυτών , σε πραγματικά και φανταστικά δεδομένα , προχωρώντας σε μετρήσεις σύμφωνα με την υλοποίηση των συγκεκριμένων αλγορίθμων ,η οποία έγινε από τον Βασίλειο Καγκλή στο Frequent Itemset Hiding Toolbox. Αξιολογούμε τους συγκεκριμένους αλγόριθμους χρησιμοποιώντας τις μετρικές αξιολόγησης τις οποίες εφηύρε ο Παναγιώτης Μάρκοβιτς. Προτείνουμε ορισμένες βελτιώσεις πάνω στις μετρικές και παρουσιάζουμε την καταλληλόλητα χρήσης κάθε μιας τεχνικής ανάλογα με τα χαρακτηριστικά των πειραματικών δεδομένων.
Abstract (translated): Nowadays, every commercial company store its transactional databases. Large amount of data stored in transactional databases in comparison with the variety of algorithms which have been found to extract the knowledge makes them a necessary object for further study in every commercial company. These algorithms find important patterns which characterize consumer behavior. The results of this analysis can be used in order to improve targeted advertising or to develop new marketing strategies. In this context, organizations share their data in order to increase their profits. Information sharing generates risks. Analysis of transactional databases reveals patterns which can be translated to successful strategies. These patterns can be used from unauthorized parties in order to economically harm these cooperating organizations. As a result, sensitive data has to be hidden. Privacy Preserving Data Mining, is a new scientific field which tries to solve this problem. All these years, a large variety of algorithms have been invented in order to preserve sensitive data with minimum collateral losses. In this thesis, I will describe in detail a large variety of frequent itemset hiding techniques. Further I will present some disadvantages on some of these techniques and I will suggest some improvements. I will appraise the performance of these techniques, on real and imaginary datasets, by proceeding to measurements which have been implemented by Vasileios Kagklis on Frequent Itemset Hiding Toolbox. Additionally, I evaluate the results of these measurements using the evaluation metrics found by Panagiotis Markovits. Eventually I make some improvements on some of these techniques and I present the appropriateness of each technique according to the characteristics of the datasets.
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΔΕ)



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.