Search Results

Now showing 1 - 10 of 18
  • Thumbnail Image
    Item
    Κατασκευή συστήματος αναγνώρισης κακόβουλων χρηστών στο διαδίκτυο
    (2010-03-08T06:59:36Z) Βήττας, Ιωάννης; Δερματάς, Ευάγγελος; Δερματάς, Ευάγγελος; Δενάζης, Σπυρίδων; Vittas, Ioannis
    Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)
    Στη συγκεκριμένη Διπλωματική εργασία μελετώνται μέθοδοι κατασκευής συστήματος αναγνώρισης κακόβουλων - spammer χρηστών στο Διαδίκτυο. Συγκεκριμένα, επικεντρωνόμαστε στα Συστήματα Κοινωνικής Σελιδοσήμανσης, που αποτελούν έναν από τους βασικότερους τομείς σήμερα στο Διαδίκτυο. Οι μέθοδοι που χρησιμοποιούνται βασίζονται στο επιστημονικό πεδίο της Μηχανικής Μάθησης. Δοσμένου ενός πραγματικού συνόλου δεδομένων που περιγράφει έναν από τους πιο δημοφιλής Ιστότοπους Κοινωνικής Σελιδοσήμανσης, τον BibSonomy, εξάγονται χαρακτηριστικά σημασιολογικής φύσεως και εισάγονται σε ταξινομητές ώστε να διερευνηθεί η απόδοσή τους και να ευρεθούν οι βέλτιστες ρυθμίσεις τους στη διαδικασία ταυτοποίησης spammer και νόμιμων χρηστών.
  • Thumbnail Image
    Item
    Εφαρμογή τεχνικών εξόρυξης γνώσης στην εκπαίδευση
    (2012-05-31) Παπανικολάου, Δονάτος; Πιντέλας, Παναγιώτης; Ράγγος, Όμηρος; Καββαδίας, Δημήτριος; Πιντέλας, Παναγιώτης; Papanikolaou, Donatos
    Τμήμα Μαθηματικών (ΜΔΕ)
    Σε αυτή την Διπλωματική εργασία μελετήσαμε με ποιο τρόπο μπορούν να εφαρμοστούν οι διάφορες τεχνικές Εξόρυξης Γνώσης (Data Mining) στην εκπαίδευση. Αυτός ο επιστημονικός τομέας o οποίος ερευνά και αναπτύσσει τεχνικές προκειμένου να ανακαλύψει γνώση από δεδομένα τα οποία προέρχονται από την εκπαίδευση ονομάζεται Εξόρυξη Γνώσης από Εκπαιδευτικά Δεδομένα (Educational Data Mining –EDM. Στην εργασία αυτή εκτός από την θεωρητική μελέτη των αλγορίθμων και των τεχνικών που διέπουν την εξόρυξη γνώσης από δεδομένα γενικά, έγινε και μια λεπτομερέστερη μελέτη και παρουσίαση της κατηγορίας των αλγορίθμων κατηγοριοποίησης (Classification), διότι αυτοί οι αλγόριθμοι χρησιμοποιήθηκαν στην φάση της υλοποίησης/αξιολόγησης. Στην συνέχεια η εργασία επικεντρώθηκε στον τρόπο με τον οποίο μπορούν να εφαρμοστούν αυτοί οι αλγόριθμοι σε εκπαιδευτικά δεδομένα, τι εφαρμογές έχουμε στην εκπαίδευση, ενώ αναφερόμαστε και σε μια πληθώρα ερευνών που έχουν πραγματοποιηθεί πάνω στο συγκεκριμένο αντικείμενο. Στην συνέχεια διερευνήσαμε την εφαρμογή τεχνικών κατηγοριοποίησης στην πρόγνωση της επίδοσης μαθητών Δευτεροβάθμιας Εκπαίδευσης στα μαθήματα της Γεωγραφίας Α’ και Β’ Γυμνασίου. Συγκεκριμένα υλοποιήσαμε και θα αξιολογήσαμε έξι αλγορίθμους οι οποίοι ανήκουν στην ομάδα των αλγορίθμων κατηγοριοποίησης(Classification) και είναι αντιπροσωπευτικοί των σημαντικότερων τεχνικών κατηγοριοποίησης. Από την οικογένεια των ταξινομητών με χρήση δένδρων απόφασης (Decision Tree Classifiers) υλοποιήσαμε τον J48, από τους αλγορίθμους κανόνων ταξινόμησης (Rule-based Classification ) τον Ripper, από τους αλγόριθμους στατιστικής κατηγοριοποίησης τον Naïve Bayes, από την μέθοδο των Κ πλησιέστερων γειτόνων (KNN) τον 3-ΝΝ, από την κατηγορία των τεχνητών νευρωνικών δικτύων τον Back Propagation και τέλος από τις μηχανές διανυσμάτων υποστήριξης (Support Vector Machines SVM) τον SMO (Sequental Minimal Optimazation). Όλες οι παραπάνω υλοποιήσεις και αξιολογήσεις έγιναν με το ελεύθερο λογισμικού Weka το οποίο είναι υλοποιημένο σε Java και το οποίο προσφέρει μια πληθώρα αλγορίθμων μηχανικής μάθησης για να κάνουμε εξόρυξη γνώσης.
  • Thumbnail Image
    Item
    Ταξινόμηση μιας κλάσης ηλεκτροεγκεφαλικών σημάτων
    (2011-05-04T11:45:25Z) Πιστιόλης, Νικόλαος; Φωτόπουλος, Σπύρος; Φωτόπουλος, Σπύρος; Οικονόμου, Γεώργιος; Ζυγούρης, Ευάγγελος; Pistiolis, Nick
    Τμήμα Φυσικής (ΜΔΕ)
    Στο πρόβλημα της ταξινόμησης μιας κλάσης μία από τις κλάσεις, που ονομάζεται target κλάση, πρέπει να διαχωριστεί από όλα τα άλλα πιθανά αντικείμενα. Αυτά θεωρούνται σαν outliers (ή non-targets). Η ανάγκη για τη λύση ενός τέτοιου προβλήματος προκύπτει σε πολλές πρακτικές εφαρμογές, π.χ. στη μηχανική ανίχνευση λάθους, στην αναγνώριση προσώπου, στην επαλήθευση συγγραφικών δικαιωμάτων, στην αναγνώριση απάτης ή στη ταυτοποίηση ατόμου με βάση βιομετρικά δεδομένα. Στη συγκεκριμένη διπλωματική γίνεται ταξινόμηση μιας κλάσης ηλεκτροεγκεφαλικών σημάτων. Με αυτό τον τρόπο επιτυγχάνεται η ανίχνευση ενός πυραύλου μέσα σε δορυφορικές εικόνες, χρησιμοποιώντας τα ηλεκτροεγκεφαλικά σήματα ενός υποκειμένου το οποίο βλέπει δορυφορικές εικόνες σε μια LCD οθόνη. Για να γίνει η ταξινόμηση δημιουργήθηκε ένα σετ target και ένα σετ outlier αντικειμένων(δεδομένα).Τα target αντικείμενα είναι τα τμήματα από τα αρχικά ηλεκτροεγκεφαλικά σήματα τα οποία συνδέονται με την παρατήρηση πυραύλου μέσα σε μία δορυφορική εικόνα από το υποκείμενο, ενώ τα outlier αντικείμενα είναι άλλα τμήματα(ίδιου μεγέθους με τα target) των αρχικών ηλεκτροεγκεφαλικών σημάτων. Tα αντικείμενα μεταφέρονται σε ένα χώρο χαρακτηριστικών λιγότερων διαστάσεων από τον αρχικό τους χώρο, χρησιμοποιώντας τη γραμμική μέθοδο MCA (Minor Component Analysis). Για τη ταξινόμηση μιας κλάσης των αντικειμένων μελετώνται και χρησιμοποιούνται οι ταξινομητές MST_CD (Minimum Spanning Tree Class Descriptor), k-NNDD (k Nearest Neighbors Data Description) και SVDD (Support Vector Domain Description). Η εκπαίδευση των ταξινομητών αυτών γίνεται με ένα μικρό ποσοστό των target αντικειμένων (αντικείμενα εκπαίδευσης). Υπολογίζεται η απόδοση ταξινόμησης για κάθε έναν από αυτούς χρησιμοποιώντας τα υπόλοιπα target αντικείμενα μαζί με τα outlier αντικείμενα. Τέλος συγκρίνονται οι αποδόσεις και εξάγονται τα συμπεράσματα για τις υψηλές τιμές τους. Στο παράρτημα Α φαίνεται ο εκτελέσιμος στο matlab κώδικας με τον οποίο έγιναν όλα τα παραπάνω. Ο κώδικας γράφτηκε αποκλειστικά για τη συγκεκριμένη διπλωματική εργασία.
  • Thumbnail Image
    Item
    Χρήση αλγορίθμων μηχανικής μάθησης για την ταυτοποίηση κοινών σημείων ενδιαφέροντος σε ετερογενή σύνολα δεδομένων από μέσα κοινωνικής δικτύωσης
    (2014-04-02) Καλαβρουζιώτης, Βασίλειος; Γαροφαλάκης, Ιωάννης; Γαροφαλάκης, Ιωάννης; Τσακαλίδης, Αθανάσιος; Χατζηλυγερούδης, Ιωάννης; Kalavrouziotis, Vasilios
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)
    Στην εργασία αυτή ασχολούμαστε με την αξιοποίηση των δεδομένων από διαφορετικά κοινωνικά δίκτυα (πιο συγκεκριμένα από Foursquare και Facebook) με σκοπό να ταυτοποιήσουμε τις ίδιες τοποθεσίες (ή αλλιώς σημεία ενδιαφέροντος) που έχουν εισαχθεί σε αυτά τα δίκτυα. Το πρόβλημα της ταυτοποίησης είναι σημαντικό να λυθεί διότι έτσι θα μπορούσε να αποκτηθεί μια καλύτερη εικόνα για τις αλληλεπιδράσεις των χρηστών με το φυσικό περιβάλλον με τη χρήση των μέσων κοινωνικής δικτύωσης (social data). Αυτό σημαίνει ταυτόχρονα και καλύτερη ανάλυση και αξιοποίηση αυτών δεδομένων, αφού θα έχουμε αναγνωρίσει μεγάλο μέρος των κοινών σημείων ενδιαφέροντος από ετερογενή σύνολα δεδομένων από τα μέσα κοινωνικής δικτύωσης. Μια λύση στο πρόβλημα είναι η χρήση των αλγορίθμων μηχανικής μάθησης, που θα αποφασίζουν αν ένα ζεύγος σημείων αντιπροσωπεύει το ίδιο σημείο ενδιαφέροντος.
  • Thumbnail Image
    Item
    Μηχανική μάθηση σε ανομοιογενή δεδομένα
    (2015-07-07) Λυπιτάκη, Αναστασία Δήμητρα Δανάη; Κωτσιαντής, Σωτήρης; Κωτσιαντής, Σωτήρης; Γράψα, Θεοδούλα; Καββαδίας, Δημήτριος; Lipitaki, Anastasia Dimitra Danae
    Τμήμα Μαθηματικών (ΜΔΕ)
    Οι αλγόριθμοι μηχανικής μάθησης είναι επιθυμητό να είναι σε θέση να γενικεύσουν για οποιασδήποτε κλάση με ίδια ακρίβεια. Δηλαδή σε ένα πρόβλημα δύο κλάσεων - θετικών και αρνητικών περιπτώσεων - ο αλγόριθμος να προβλέπει με την ίδια ακρίβεια και τα θετικά και τα αρνητικά παραδείγματα. Αυτό είναι φυσικά η ιδανική κατάσταση. Σε πολλές εφαρμογές οι αλγόριθμοι καλούνται να μάθουν από ένα σύνολο στοιχείων, το οποίο περιέχει πολύ περισσότερα παραδείγματα από τη μια κλάση σε σχέση με την άλλη. Εν γένει, οι επαγωγικοί αλγόριθμοι είναι σχεδιασμένοι να ελαχιστοποιούν τα σφάλματα. Ως συνέπεια οι κλάσεις που περιέχουν λίγες περιπτώσεις μπορούν να αγνοηθούν κατά ένα μεγάλο μέρος επειδή το κόστος λανθασμένης ταξινόμησης της υπερ-αντιπροσωπευόμενης κλάσης ξεπερνά το κόστος λανθασμένης ταξινόμησης της μικρότερη κλάση. Το πρόβλημα των ανομοιογενών συνόλων δεδομένων εμφανίζεται και σε πολλές πραγματικές εφαρμογές όπως στην ιατρική διάγνωση, στη ρομποτική, στις διαδικασίες βιομηχανικής παραγωγής, στην ανίχνευση λαθών δικτύων επικοινωνίας, στην αυτοματοποιημένη δοκιμή του ηλεκτρονικού εξοπλισμού, και σε πολλές άλλες περιοχές. Η παρούσα διπλωματική εργασία με τίτλο ‘Μηχανική Μάθηση με Ανομοιογενή Δεδομένα’ (Machine Learning with Imbalanced Data) αναφέρεται στην επίλυση του προβλήματος αποδοτικής χρήσης αλγορίθμων μηχανικής μάθησης σε ανομοιογενή/ανισοκατανεμημένα δεδομένα. Η διπλωματική περιλαμβάνει μία γενική περιγραφή των βασικών αλγορίθμων μηχανικής μάθησης και των μεθόδων αντιμετώπισης του προβλήματος ανομοιογενών δεδομένων. Παρουσιάζεται πλήθος αλγοριθμικών τεχνικών διαχείρισης ανομοιογενών δεδομένων, όπως οι αλγόριθμοι AdaCost, Cost Senistive Boosting, Metacost και άλλοι. Παρατίθενται οι μετρικές αξιολόγησης των μεθόδων Μηχανικής Μάθησης σε ανομοιογενή δεδομένα, όπως οι καμπύλες διαχείρισης λειτουργικών χαρακτηριστικών (ROC curves), καμπύλες ακρίβειας (PR curves) και καμπύλες κόστους. Στο τελευταίο μέρος της εργασίας προτείνεται ένας υβριδικός αλγόριθμος που συνδυάζει τις τεχνικές OverBagging και Rotation Forest. Συγκρίνεται ο προτεινόμενος αλγόριθμος σε ένα σύνολο ανομοιογενών δεδομένων με άλλους αλγόριθμους και παρουσιάζονται τα αντίστοιχα πειραματικά αποτελέσματα που δείχνουν την καλύτερη απόδοση του προτεινόμενου αλγόριθμου. Τελικά διατυπώνονται τα συμπεράσματα της εργασίας και δίνονται χρήσιμες ερευνητικές κατευθύνσεις.
  • Thumbnail Image
    Item
    Σύνθεση περιλήψεων από σχόλια χρηστών για προϊόντα και υπηρεσίες ηλεκτρονικού εμπορίου
    (2012-02-14) Besharat, Jeries F.; Χριστοδουλάκης, Δημήτριος; Χριστοδουλάκης, Δημήτριος; Στάμου, Σοφία; Μαραγκουδάκης, Μανώλης; Μπεσαράτ, Τζέριες Φ.
    Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)
    Ο στόχος της διπλωματικής εργασίας είναι διττός: 1.Εξαγωγή απόψεων που αφορούν τα προϊόντα 2.Περίληψη των απόψεων Η εξαγωγή απόψεων αναφέρεται σε μια ευρεία περιοχή επεξεργασίας της φυσικής γλώσσας, υπολογιστικής γλωσσολογίας και εξόρυξης κειμένου. Σε γενικές γραμμές, έχει ως στόχο να εντοπίσει τη στάση του ομιλητή ή συγγραφέα σε σχέση με κάποιο θέμα. Οι απόψεις του μπορούν να εκφράζουν κρίση ή αξιολόγηση, τη συναισθηματική του κατάσταση ή την προβλεπόμενη συναισθηματική επικοινωνία. H αυτόματη εξαγωγή περίληψης είναι η δημιουργία μιας συντομευμένης εκδοχής του αρχικού κειμένου. Η συνεισφορά της συγκεκριμένης διπλωματικής εργασίας εντοπίζεται στα ακόλουθα σημεία. Αρχικά βοηθά τον ενδιαφερόμενο αγοραστή κάποιου προϊόντος να σχηματίσει μια γενική εικόνα για το προϊόν. Επίσης, δίνει την δυνατότητα στον κατασκευαστή να δει τις εντυπώσεις των χρηστών για το συγκεκριμένο προϊόν και αναλόγως να προχωρήσει σε βελτιώσεις του ή να επιλύσει διάφορα προβλήματα που μπορεί να παρουσιάζει.
  • Thumbnail Image
    Item
    Prosody modelling using machine learning techniques for neutral and emotional speech synthesis
    (2011-08-11T06:03:19Z) Λαζαρίδης, Αλέξανδρος; Φακωτάκης, Νικόλαος; Μουτζόπουλος, Ιωάννης; Δερματάς, Ευάγγελος; Αναστασόπουλος, Βασίλειος; Μπερμπερίδης, Κωνσταντίνος; Κουρουπέτρογλου, Γεώργιος; Παλιουράς, Βασίλειος; Φακωτάκης, Νικόλαος; Lazaridis, Alexandros
    Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΔ)
    In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task. The SVR model outperformed all the other individual models evaluated in this dissertation. Their ability to outperform all the other models is mainly based on their advantage of coping in a better way with high-dimensionality feature spaces in respect to the other models used in phone duration modelling, which makes them appropriate even for the case when the amount of the training data would be small respectively to the number of the feature set used. The proposed fusion scheme, taking advantage of the observation that different prediction algorithms perform better in different conditions, when implemented with SVR (SVR-fusion), contributed to the improvement of the phone duration prediction accuracy over that of the best individual model (SVR). Furthermore the SVR-fusion model managed to reduce the outliers in respect to the best individual model (SVR). Moreover, the proposed two-stage scheme using individual phone duration models as feature constructors in the first stage and feature vector extension (FVE) in the second stage, implemented with SVR (SVR-FVE), improved the prediction accuracy over the best individual predictor (SVR), and the SVR-fusion scheme and moreover managed to reduce the outliers in respect to the other two proposed schemes (SVR and SVR-fusion). The SVR two-stage scheme confirms in this way their advantage over all the other algorithms of coping well with high-dimensionality feature sets. The improved accuracy of phone duration modelling contributes to a better control of the prosody, and thus quality of synthetic speech. Furthermore, the first proposed method (SVR) was also evaluated on the phone duration modelling task in emotional speech, outperforming all the state-of-the-art models in all the emotional categories. Finally, perceptual tests were performed evaluating the impact of the proposed phone duration models to synthetic speech. The perceptual test for both the databases confirmed the results of objective tests showing the improvement achieved by the proposed models in the naturalness of synthesized speech.
  • Thumbnail Image
    Item
    Μελέτη και ανάπτυξη μεθόδων μηχανικής μάθησης με εφαρμογή στην πρόβλεψη ατμοσφαιρικής ρύπανσης
    (2010-06-24T05:37:52Z) Καλαπανίδας, Ηλίας; Αβούρης, Ν.; Αβούρης, Ν.; Χούσος, Ε.; Θραμπουλίδης, Κλ.; Χριστοδουλάκης, Δ.; Φακωτάκης, Ν.; Χατζηλυγερούδης, Ι.; Δασκαλάκη, Σ.; Kalapanidas, Ilias
    Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΔ)
    -
  • Thumbnail Image
    Item
    Μηχανική μάθηση : Bayesian δίκτυα και εφαρμογές
    (2013-10-13) Χριστακοπούλου, Κωνσταντίνα; Μουστακίδης, Γεώργιος; Αβούρης, Νικόλαος; Μουστακίδης, Γεώργιος; Christakopoulou, Konstantina
    Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)
    Στην παρούσα διπλωματική εργασία πραγματευόμαστε το θέμα της χρήσης των Bayesian Δικτύων -και γενικότερα των Πιθανοτικών Γραφικών Μοντέλων - στη Μηχανική Μάθηση. Στα πρώτα κεφάλαια της εργασίας αυτής παρουσιάζουμε συνοπτικά τη θεωρητική θεμελίωση αυτών των δομημένων πιθανοτικών μοντέλων, η οποία απαρτίζεται από τις βασικές φάσεις της αναπαράστασης, επαγωγής συμπερασμάτων, λήψης αποφάσεων και εκμάθησης από τα διαθέσιμα δεδομένα. Στα επόμενα κεφάλαια, εξετάζουμε ένα ευρύ φάσμα εφαρμογών των πιθανοτικών γραφικών μοντέλων και παρουσιάζουμε τα αποτελέσματα των εξομοιώσεων που υλοποιήσαμε. Συγκεκριμένα, αρχικά με χρήση γράφων ορίζονται τα Bayesian δίκτυα, Markov δίκτυα και Factor Graphs. Έπειτα, παρουσιάζονται οι αλγόριθμοι επαγωγής συμπερασμάτων που επιτρέπουν τον απευθείας υπολογισμό πιθανοτικών κατανομών από τους γράφους. Διευκολύνεται η λήψη αποφάσεων υπό αβεβαιότητα με τα δέντρα αποφάσεων και τα Influence διαγράμματα. Ακολούθως, μελετάται η εκμάθηση της δομής και των παραμέτρων των πιθανοτικών γραφικών μοντέλων σε παρουσία πλήρους ή μερικού συνόλου δεδομένων. Τέλος, παρουσιάζονται εκτενώς σενάρια τα οποία καταδεικνύουν την εκφραστική δύναμη, την ευελιξία και τη χρηστικότητα των Πιθανοτικών Γραφικών Μοντέλων σε εφαρμογές του πραγματικού κόσμου.
  • Thumbnail Image
    Item
    Σχεδιασμός, υλοποίηση και εφαρμογή μεθόδων υπολογιστικής νοημοσύνης για την πρόβλεψη παθογόνων μονονουκλεοτιδικών πολυμορφισμών
    (2013-10-11) Ραπακούλια, Τρισεύγενη; Λυκοθανάσης, Σπυρίδων; Τσακαλίδης, Αθανάσιος; Μαυρουδή, Σεφερίνα; Rapakoulia, Triseygeni
    Τμήμα Ιατρικής (ΜΔΕ)
    Η πιο απλή μορφή γενετικής διαφοροποίησης στον άνθρωπο είναι οι μονονουκλεοτιδικοί πολυμορφισμοί (Single Nucleotide Polymorphisms - SNPs). Ο αριθμός αυτού του είδους πολυμορφισμών που έχουν βρεθεί στο ανθρώπινο γονιδίωμα και επηρεάζουν την παραγόμενη πρωτεΐνη αυξάνεται συνεχώς, αλλά η αντιστοίχηση τους σε πιθανές ασθένειες με πειραματικές μεθόδους είναι ασύμφορη από θέμα χρόνου και κόστους. Για αυτό τον λόγο έχουν αναπτυχθεί διάφορες υπολογιστικές μέθοδοι με σκοπό να ταξινομήσουν τους μονονουκλεοτιδικούς πολυμορφισμούς σε παθογόνους και μη. Οι περισσότερες από αυτές τις μεθόδους χρησιμοποιούν ταξινομητές, οι οποίοι παίρνοντας σαν είσοδο ένα σύνολο δομικών, λειτουργικών, ακολουθιακών και εξελικτικών χαρακτηριστικών, επιχειρούν να προβλέψουν αν ένας μονονουκλεοτιδικός πολυμορφισμός είναι παθογόνος ή μη. Για την εκπαίδευση αυτών των ταξινομητών, χρησιμοποιούνται δύο σύνολα μονονουκλεοτιδικών πολυμορφισμών. Το πρώτο αποτελείται από μονονουκλεοτιδικούς πολυμορφισμούς που έχει βρεθεί πειραματικά ότι οδηγούν σε παθογένεια και το δεύτερο από μονονουκλεοτιδικούς πολυμορφισμούς που έχει αποδειχθεί πειραματικά ότι είναι αδρανείς. Οι μέθοδοι αυτές διαφέρουν στα χαρακτηριστικά των μεταλλάξεων που λαμβάνουν υπόψη στην πρόβλεψη τους, καθώς επίσης και στην εκπαίδευση και τη φύση των τεχνικών ταξινόμησης, που χρησιμοποιούν για τη λήψη των αποφάσεων. Το βασικότερο προβλήματα τους ωστόσο έγκειται στο γεγονός ότι καθορίζουν τα χαρακτηριστικά, που θα χρησιμοποιήσουν σαν είσοδο στους ταξινομητές τους με τρόπο εμπειρικό και μάλιστα διαφορετικές μέθοδοι προτείνουν και χρησιμοποιούν διαφορετικά χαρακτηριστικά, χωρίς να τεκμηριώνουν επαρκώς τις αιτίες αυτής της διαφοροποίησης. Δύο ακόμα προβλήματα που δεν έχουν καταφέρει να αντιμετωπίσουν οι υπάρχουσες μεθοδολογίες είναι το πρόβλημα της ανισορροπίας των δύο κλάσεων ταξινόμησης και των ελλιπών τιμών σε πολλά από τα χαρακτηριστικά εισόδου των ταξινομητών, ώστε να επιτυγχάνουν πιο ακριβή και αξιόπιστα αποτελέσματα. Από τα παραπάνω είναι ξεκάθαρο πως υπάρχει μεγάλο περιθώριο βελτίωσης των υπάρχουσων μεθοδολογιών για το συγκεκριμένο πρόβλημα ταξινόμησης. Στην παρούσα διπλωματική εργασία προτείνουμε μια νέα υβριδική μεθοδολογία υπολογιστικής νοημοσύνης, που ξεπερνά πολλά από τα προβλήματα των υπάρχοντων μεθοδολογιών και βελτιώνει με τον τρόπο αυτό την απόδοσή τους. Δύο είναι τα βασικά βήματα που ακολουθήσαμε για την επίτευξη του στόχου αυτού. Πρώτον, συγκεντρώσαμε από τις διαθέσιμες δημόσιες βάσεις δεδομένων, τους μονονουκλεοτιδικούς πολυμορφισμούς που χρησιμοποιήθηκαν για την εκπαίδευση και τον έλεγχο των μοντέλων μηχανικής μάθησης. Συγκεκριμένα, συλλέχθησαν και φιλτραρίστηκαν τα θετικά και αρνητικά σύνολα εκπαίδευσης και ελέγχου, που αποτελούνται από μονονουκλεοτιδικούς πολυμορφισμούς που είτε οδηγούν σε παθογένεια, είτε είναι ουδέτεροι. Για κάθε πολυμορφισμό των δύο συνόλων υπολογίσαμε χρησιμοποιώντας υπάρχοντα διαθέσιμα εργαλεία όσο το δυνατό περισσότερα δομικά, λειτουργικά, ακολουθιακά και εξελικτικά χαρακτηριστικά. Για εκείνα τα χαρακτηριστικά, για τα οποία δεν υπήρχε κάποιο διαθέσιμο εργαλείο υπολογισμού τους, υλοποιήσαμε τον κατάλληλο κώδικα για τον υπολογισμό τους. Το δεύτερο βήμα της διπλωματικής αφορούσε το σχεδιασμό και την υλοποίηση της κατάλληλης υβριδικής μεθόδου για την επίλυση του προβλήματος που μελετάμε. Χρησιμοποιήσαμε μια νέα μέθοδο ταξινόμησης την EnsembleGASVR. Πρόκειται για μια ensemble μεθοδολογία, που συνδυάζει σε ένα ενιαίο πλαίσιο ταξινόμησης οκτώ διαφορετικούς ταξινομητές. Κάθε ένας από αυτούς τους ταξινομητές βασίζεται στον υβριδικό συνδυασμό των Γενετικών Αλγορίθμων και των μοντέλων Παλινδρόμησης Διανυσμάτων Υποστήριξης (nu-Support Vector Regression). Συγκεκριμένα ένας Προσαρμοζόμενος Γενετικός Αλγόριθμος χρησιμοποιείται για να καθοριστεί το βέλτιστο υποσύνολο χαρακτηριστικών, καθώς και οι βέλτιστες τιμές των παραμέτρων των ταξινομητών. Σαν μέθοδο ταξινόμησης των μεταλλάξεων σε ουδέτερες και παθογενείς, προτείνουμε τον nu-SVR ταξινομητή, καθώς παρουσιάζει υψηλή απόδοση, καλή γενίκευση, δεν παγιδεύεται σε τοπικά βέλτιστα, ενώ ταυτόχρονα επιτυγχάνει την ισορροπία μεταξύ της ακρίβειας και της πολυπλοκότητας του μοντέλου. Μάλιστα για να ξεπεράσουμε τα πρόβληματα των ελλιπών τιμών και της ανισορροπίας των δύο κλάσεων ταξινόμησης, αλλά και για να βελτιώσουμε τη συνολική απόδοση της μεθοδολογίας μας, επεκτείναμε τον υβριδικό αλγόριθμο, ώστε να λειτουργεί σαν μία ensemble-συλλογική τεχνική, συνδυάζοντας οκτώ επί μέρους μοντέλα ταξινόμησης. Τα πειραματικά αποτελέσματα της προτεινόμενης μεθοδολογίας ήταν εξαιρετικά ελπιδοφόρα, καθώς η EnsembleGASVR μεθοδολογία υπερτερεί σημαντικά έναντι άλλων ευρέως γνωστών μεθόδων ταξινόμησης παθογενών μεταλλάξεων.