Μέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων

datacite.contributor.RelatedPersonΠετρόπουλος Κωνσταντίνος
datacite.contributor.RelatedPersonΜπερσίμης Σωτήριος
datacite.contributor.SupervisorΟικονόμου Πολυχρόνης
dc.contributor.authorΣοφράς-Καραντής, Ιωάννης
dc.contributor.otherSofras-Karantis, Ioannis
dc.date.accessioned2022-09-22T08:43:06Z
dc.date.available2022-09-22T08:43:06Z
dc.date.issued2022-06-27
dc.degreemasterThesis
dc.description.abstractΟι σύγχρονοι ρυθμοί δημιουργίας και μετάδοσης της νέας πληροφορίας είναι ένα από τα βασικότερα γνωρίσματα της εποχής που ζούμε. Οι ρυθμοί αυτοί δημιουργούν ένα ταχύ και ευμετάβλητο περιβάλλον εργασίας και ανάπτυξης, όμοιο του οποίου δεν έχει υπάρξει στο παρελθόν. Το μέγεθος της πληροφορίας που καθημερινά ερχόμαστε σε επαφή είναι τόσο μεγάλο που είναι δύσκολο να το κατανοήσουμε. Οι υπολογιστικές μηχανές έχουν πια πρωταγωνιστικό ρόλο στη μετάδοση της πληροφορίας αυτής. Πέρα όμως από τη μετάδοσή της, οι υπολογιστικές μηχανές μας δίνουν και άλλες δυνατότητες όπως είναι η επεξεργασία της πληροφορίας, η απεικόνισή της, γεγονός που βοηθάει στην ορθότερη ερμηνεία της, καθώς και στην παρουσίασή της. Χαρακτηριστικό παράδειγμα, όσον αφορά τη μετάδοση της πληροφορίας, μπορεί να αποτελέσει η ενημέρωση του ανθρώπου για γεγονότα σε κάθε γωνία της γης μέσα σε λίγα δευτερόλεπτα ενώ βρίσκεται στο σπίτι του. Γεγονός που μερικά χρόνια πριν φάνταζε δύσκολο αν αναλογιστούμε ότι οι βασικές πηγές πληροφόρησης ήταν έντυπες. Πλέον οι χάρτες που έχει διαθέσιμους στο κινητό τηλέφωνο ο κάθε χρήστης, δίνουν πληροφορίες για οποιαδήποτε διαδρομή ανά πάσα στιγμή. Η απεικόνιση συνεπώς της πληροφορίας μέσω της μορφής χαρτών έχει κάνει τον άνθρωπο ικανό να ταξιδέψει παντού ανά τον κόσμο. Επίσης οι μεγάλες μηχανές αναζήτησης παρέχουν απλόχερα απαντήσεις στα εργασιακά θέματα των ανθρώπων μέσα από έναν μεγάλο αριθμό πηγών, ωθώντας τον χρήστη να αναζητήσει, να συλλέξει και τελικά να κρατήσει ότι είναι χρήσιμο για εκείνον. Παρ΄ όλα αυτά, στην πληροφορία αυτή περιέχονται και παρατηρήσεις που διαφέρουν από τις υπόλοιπες. Είναι με λίγα λόγια απομακρυσμένες από το σύνολο των παρατηρήσεων. Ο εντοπισμός και η ερμηνεία των παρατηρήσεων αυτών είναι ένα ζήτημα που απασχολεί την επιστημονική κοινότητα. Με αφορμή το ζήτημα αυτό, η παρούσα εργασία παρουσιάζει δύο μεθόδους εντοπισμού απομακρυσμένων τιμών. Πιο συγκεκριμένα στο 1o Κεφάλαιο γίνεται μια εισαγωγή στο θέμα του εντοπισμού των απομακρυσμένων τιμών δίνοντας έφμαση σε βασικές έννοιες, αναλύονται οι κατηγορίες των απομακρυσμένων σημείων και παρουσιάζεται η σημασία εντοπισμού των σημείων αυτών. Στο 2o Κεφάλαιο γίνεται μια αναδρομή στις έρευνες που έχουν προηγηθεί από επιστημονικές ομάδες με βάση την κατηγοριοποίηση των μεθόδων εντοπισμού. Στο 3o Κεφάλαιο δίνεται έμφαση σε δύο αλγόριθμους που αφορούν τον εντοπισμό απομακρυσμένων τιμών σε ροές δεδομένων. Προβάλλονται οι στόχοι που θέτουν οι αλγόριθμοι αυτοί, αναλύονται ως προς την εκτέλεση και την δομή τους καθώς και σχολιάονται και κάποια συμπεράσματα. ΄Επειτα στο 4o Κεφάλαιο οι δύο αλγόριθμοι εφαρμόζονται σε τεχνητά δεδομένα που προσομοιώνουν μια ροή. Παρουσιάζεται επίσης και το λειτουργικό περιβάλλον που χρησιμοιποιείται. Τέλος στο 5o Κεφάλαιο γίνεται και εφαρμογή των αλγορίθμων αυτών σε πραγματικά δεδομένα και σχολιάζονται τα αποτελέσματα που προκύπτουν. Ταυτόχρονα παρουσιάζεται και η προεπεξεργασία που απαιτούν τα πραγματικά δεδομένα πριν εφαρμοστούν σε αυτά οι αλγόριθμοι ενδιαφέροντος.
dc.description.translatedabstractHandling information nowadays is a big challenge due to their large volume. Computers can help us deal with this challenge through the stateof-the-art tools at their disposal by providing tools and methods not only to handle the information in a sufficient way but also to facilitate their transmission and visualization. However, often some parts (observations) of this information do not follow the general behavior of the rest of the observations. These observations are consider as possible outliers and their detection is an important scientific issue. For this reason, this thesis presents two outlier detection algorithms. The 1st chapter introduces the topic with some basic concepts and the 2nd chapter presents a literature review of the previous scientific work based on the categorization of detection methods. In 3rd chapter two algorithms are analyzed and in 4th chapter those two algorithms are applied in artificial data streams via MOA framework. Finally, in 5th chapter, the algorithms are applied in real data and the results are summarized.
dc.identifier.urihttps://nemertes.library.upatras.gr/handle/10889/23288
dc.language.isoel
dc.rightsAttribution-NonCommercial-ShareAlike 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/us/*
dc.subjectΡοή δεδομένων
dc.subjectΑπομακρυσμένα σημεία
dc.subjectΕντοπισμός απομακρυσμένων σημείων
dc.subjectΜέθοδοι εντοπισμού
dc.subjectΠεριβάλλον ΜΟΑ
dc.subject.alternativeData stream
dc.subject.alternativeOutliers
dc.subject.alternativeOutlier detection
dc.subject.alternativeDetection methods
dc.subject.alternativeMOA framework
dc.subject.alternativeAbstract - C
dc.subject.alternativeMCOD
dc.titleΜέθοδοι εντοπισμού απομακρυσμένων τιμών σε ροές δεδομένων
dc.title.alternativeOutlier detection methods in data streams
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
sofraskarantis_ioannis_thesis.pdf
Size:
1.75 MB
Format:
Adobe Portable Document Format
Description:
Master thesis
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.53 KB
Format:
Item-specific license agreed upon to submission
Description: