Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/13833
Title: Καμπύλες Andrews και ανάπτυξη μεθόδου για την ανίχνευση περιοχών με υπερσυγκέντρωση παρατηρήσεων (hot spot) σε πολυδιάστατα δεδομένα
Other Titles: Andrews curves and a new method for identifying hot spots in high dimensional data
Authors: Σκαμνιά, Αικατερίνη
Keywords: Καμπύλες Andrews
Συσταδοποίηση
Ασυνήθιστες παρατηρήσεις
Περιοχές υπερσυγκέντρωσης παρατηρήσεων
Keywords (translated): Andrews curves
Clustering
Unusual observations
Hot spots
Abstract: Τα περισσότερα δεδομένα που συλλέγονται σήμερα, είναι δεδομένα υψηλής διάστασης. Αυτό έχει σαν αποτέλεσμα, οι περισσότερες μελέτες που γίνονται, να αφορούν τέτοια δεδομένα, ενώ λόγω της πολύπλοκης φύσης τους, η ανάλυση αυτών είναι μια απαιτητική διαδικασία. Στόχος της παρούσας διπλωματικής είναι να παρουσιάσει μια γραφική μέθοδο αναπαράστασης αυτών των δεδομένων, τις Καμπύλες Andrews. Είναι μια μέθοδος κατά την οποία παρουσιάζεται μια μείωση της διαστασιμότητας, με τα δεδομένα να αναπαρίστανται στις 2 διαστάσεις, ενώ είναι χρήσιμη για τον έλεγχο ύπαρξης ασυνήθιστων παρατηρήσεων, ή/και συστάδων. Επιπλέον, αναπτύσσεται μία νέα μέθοδος, κατάλληλη για την ανίχνευση περιοχών με αυξημένη συγκέντρωση παρατηρήσεων, οι οποίες είναι πολυδιάστατες. Η παρούσα εργασία αποτελείται από τέσσερα επιμέρους κεφάλαια. Στο Κεφάλαιο 1, γίνεται μία εισαγωγή των βασικών εννοιών, των οποίων η γνώση είναι απαραίτητη για την κατανόηση της συνέχειας της εργασίας. Στο Κεφάλαιο 2, παρουσιάζεται η μέθοδος των καμπυλών Andrews που είναι και το θέμα της εργασίας. Στη συνέχεια, στο Κεφάλαιο 3, αναπτύσσεται η προτεινόμενη μέθοδος για τον εντοπισμό των περιοχών με υπερσυγκέντρωση, ενώ ακολουθούν και κάποια παραδείγματα με προσομοιωμένα παραδείγματα στην R, για την κατανόηση της εφαρμογής. Τέλος, στο Κεφάλαιο 4, πραγματοποιείται η μελέτη των προσομοιώσεων που έγιναν, για τέσσερα δυνατά σενάρια, τα οποία θεωρήθηκαν στα πλαίσια της παρούσας διπλωματικής εργασίας.
Abstract (translated): The majority of the data that exist and are collected from all types of studies these days, are high dimensional. The analysis of them, is a challenging task, especially because of complex relationships that may exist among variables. In the first place, the aim of this dissertation, is to inform about a graphical method, Andrews Curves in which we have a dimensionality reduction and our data are placed in a 2-dimensional space. Their properties make them especially useful, when someone is trying to identify possible clusters or/and outliers in a dataset. Furthermore, a new method is advanced, suitable for identifying hot spots, in high dimensional data. This thesis consists of four chapters. In Chapter 1, there is an introduction of some basic definitions, for the purpose of understanding better the rest of the Chapters. In Chapter 2, we introduce Andrews curves, which are one of the two main topics. The new method that was developed for the detection of hot spots, is included in Chapter 3, along with some toy examples with simulated data in R code. Finally, in Chapter 4 we study the results we have taken from 4 possible scenarios, we have considered, with simulated datasets generated with R.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
Σκαμνιά_Κατερίνα_final.pdf1.79 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.