Νέος αλγόριθµος οµαδοποίησης και εφαρµογές

Thumbnail Image
Date
Authors
Οικονομάκης, Εμμανουήλ
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Η αξία ενός επιστηµονικού πεδίου είναι άµεσα συνυφασµένη µε τη συµβολή αυτού στη λοιπή επιστηµονική κοινότητα και την κοινωνία γενικότερα. Η οµαδοποίηση δεδοµένων αποτελεί ένα τέτοιο πεδίο µε εφαρµογές στη βιοϊατρική, την οικονοµία κ.ά. Ωστόσο, η οµαδοποίηση δεδοµένων δεν παύει να εξελίσσεται και νέοι αλγόριθµοι παρουσιάζονται σε τακτικά διαστήµατα. Οι αλγόριθµοι προέρχονται τόσο από την εξέλιξη των ήδη υπάρχοντων αλγορίθµων, όσο και από την ανάγκη να αντιµετωπιστούν συγκεκριµένα προβλήµατα. Η οµαδοποίηση δεδοµένων ϐασίζεται σε πλειάδα αλγορίθµων, οι περισσότεροι από αυτούς µπορούν να διαχωριστούν σε κατηγορίες ϐάσει των ϐασικών τους χαρακτηριστικών και του τρόπου µε τον οποίο αντιλαµβάνονται τις οµάδες. Οι έννοιες της απόστασης και της πυκνότητας είναι ίσως οι σηµαντικότερες στο χώρο της οµαδοποίησης. Από τη µία πλευρά, οι αλγόριθµοι που βασίζονται στην απόσταση κρίνουν αν τα σηµεία ενός συνόλου δεδοµένων ανήκουν στην ίδια οµάδα µε βάση τις µεταξύ τους αποστάσεις. Από την άλλη πλευρά, οι αλγόριθµοι που βασίζονται στην πυκνότητα συνήθως δεν εξετάζουν τα σηµεία ξεχωριστά, αλλά µελετάνε τις περιοχές του συνόλου δεδοµένων. Με αυτό τον τρόπο, προσδιορίζουν περιοχές αυξηµένης πυκνότητας τις οποίες χαρακτηρίζουν ως οµάδες ή µέρη αυτών. Αν και η οµαδοποίηση δεδοµένων αποτελείται και από πολλές επιπλέον κατηγορίες όπως αλγόριθµοι βασισµένοι στην Ασαφή Λογική, σε Γκαουσσιανές κατανοµές και στην οµοιότητα, κατά βάσιν οι αλγόριθµοι αυτοί µπορούν να ενταχθούν σε κάποια από τις βασικές κατηγορίες που βασίζονται στην απόσταση ή την πυκνότητα. Τέλος, πρέπει να σηµειωθεί ότι έχουν προταθεί αλγόριθµοι που συνδυάζουν και τις δύο έννοιες, συνδυάζοντας τις σε ένα ϐασικό µέτρο που χρησιµοποιείται ώστε να κατασκευάσει τις οµάδες. Ωστόσο, ϑεωρώντας την απόσταση ως βασικό κριτήριο για την οµαδοποίηση σηµείων δηµιουργούνται αλγόριθµοι που έµµεσα ή άµεσα συγκρίνουν όλα τα σηµεία του συνόλου δεδοµένων οδηγούµενοι έτσι σε αυξηµένο υπολογιστικό κόστος. Αντιθέτως, αλγόριθµοι που βασίζονται στην πυκνότητα παρουσιάζουν µία αδυναµία να αντιληφθούν τις συσχετίσεις µεταξύ σηµείων που βρίσκονται σε περιοχές ίσης ή παρεµφερούς πυκνότητας. Η συµβολή αυτής της διατριβής στο πεδίο της οµαδοποίησης δεδοµένων είναι η εισαγωγή ενός αλγορίθµου που συνδυάζει τις δύο αυτές έννοιες όχι δηµιουργώντας µία νέα έννοια που τις ενοποιεί σε µία, αλλά επιλέγοντας της έννοια που εξυπηρετεί το εκάστοτε βήµα του αλγορίθµου. Συγκεκριµένα, χρησιµοποιεί την πυκνότητα προκειµένου να εντοπίσει τις περιοχές αυξηµένης πυκνότητας και συνεπώς τις οµάδες ή τουλάχιστον µέρη αυτών. Αντιθέτως, θέλοντας να εντοπιστούν οι πλησιέστερες οµάδες αξιοποιείται η έννοια της απόστασης. Ωστόσο, η συµβολή µίας µεθόδου εξαρτάται από την δυνατότητα να «προσφέρει» και σε άλλα επιστηµονικά πεδία. Η οµαδοποίηση δεδοµένων έχει βρει πρόσφορο πεδίο εφαρµογής στην ιατρική, συγκεκριµένα στη βιοϊατρική, στην προσωποποιηµένη ιατρική και στην επεξεργασία ιατρικής εικόνας. Αναλυτικότερα, η οµαδοποίηση δεδοµένων αξιοποιείται στη βιοϊατρική και στην προσωποποιηµένη ιατρική µε στόχο να εντοπίσει συσχετίσεις µεταξύ γονιδίων, ασθενειών και ϕαρµακευτικών ουσιών. Ειδικότερα στην περίπτωση του καρκίνου και συγκεκριµένα του καρκίνου του µαστού, η περιπλοκότητα των συσχετίσεων που τυχόν υπάρχουν έχουν τέτοιο επίπεδο περιπλοκότητας ώστε η ανάδειξη αυτών να εµφανίζει ακόµα πολύ µεγάλα περιθώρια βελτίωσης. Συνεπώς, η εφαρµογή της οµαδοποίησης σε προβλήµατα των χώρων αυτών αποτελεί µία πρόκληση για τους νέους αλγορίθµους οµαδοποίησης και η παρούσα διατριβή µελετά την εφαρµογή της οµαδοποίησης σε προβλήµατα του καρκίνου του µαστού, µελετώντας τη δυναµική του νέου αλγορίθµου που εισάγεται σε αυτή. Για την περίπτωση της βιοϊατρικής, ερευνάται η συµβολή του αλγορίθµου στη οµαδοποίηση συσχετίσεων γονιδίων µε ϐάση την συνέκφραση και τη διαφορική τους έκφραση. Στόχος αυτής της µελέτης είναι ο προσδιορισµός µονοπατιών γονιδίων που να περιγράφουν τα στάδια του καρκίνου του µαστού. Τα αποτελέσµατα της εργασίας στο συγκεκριµένο πρόβληµα δικαιολογούν την επιλογή αυτή καθώς πολλά από τα µονοπάτια που προσδιορίστηκαν επιβεβαιώνονται από την υπάρχουσα βιβλιογραφία.
Description
Keywords
Ομαδοποίηση δεδομένων, Ζεύγη γονιδίων, Βιοϊατρική, Καρκίνος του μαστού
Citation