Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/12448
Title: Deep learning για βιολογικά δεδομένα μεγάλης κλίμακας : επεξεργασία βιολογικών ακολουθιών με συνελικτικά νευρωνικά δίκτυα
Other Titles: Deep learning for large scale biological data : sequence processing using convolutional neural networks
Authors: Ντόκος, Γεώργιος
Keywords: Συνελικτικά vευρωνικά δίκτυα
Βιολογικά δεδομένα
Βιολογικές ακολουθίες μεγάλης κλίμακας
Μηχανική μάθηση
Ενισχυτές μεταγραφής
Keywords (translated): Convolutional neural networks
Biological data
Biological sequences big data
Machine learning
DNA enhancers
Abstract: Οι σύγχρονες εργαστηριακές μέθοδοι παράγουν τεράστιες ποσότητες πειραματικών βιολογικών δεδομένων, σε μορφή βιολογικών ακολουθιών. Η επεξεργασία αυτών των δεδομένων είναι απαιτητική εξαιτίας του μεγάλου όγκου και της πολυπλοκότητάς τους. Η ανάπτυξη νέων εργαλείων ανάλυσης και επεξεργασίας είναι επιτακτική ανάγκη. Από την πλευρά της Πληροφορικής, αναπτύσσονται όλο και ισχυρότερα υπολογιστικά εργαλεία που δίνουν τη δυνατότητα διαχείρησης τέτοιου τύπου δεδομένων. Μας απασχολούν οι μέθοδοι που εντάσσονται στο πεδίο της Μηχανικής Μάθησης και ιδιαίτερα στο Deep Learning. Οι πολυεπίπεδες αρχιτεκτονικές χρησιμοποιούνται ήδη με μεγάλη επιτυχία σε αρκετές εφαρμογές, κυρίως σχετικές με επεξεργασία εικόνας. Οι επιδόσεις τους αποτελούν κίνητρο για να εξερευνήσουμε την αποτελεσματικότητά τους σε εφαρμογές Βιοπληροφορικής που σχετίζονται με δεδομένα σε μορφή ακολουθιών (DNA, RNA, πρωτεϊνες). Στο πρώτο κομμάτι της εργασίας παρουσιάζονται οι σημαντικότερες μεθοδολογίες και περιγράφονται σχετικές εργασίες που χρησιμοποιούν μοντέλα πολυεπίπεδων νευρωνικών δικτύων για επεξεργασία ακολουθιών. Στο δεύτερο κομμάτι της εργασίας επιχειρείται η υλοποίηση ενός τέτοιου μοντέλου με σκοπό την επιβεβαίωση ότι αυτές οι τεχνικές είναι αποτελεσματικότερες από τις συμβατικές μεθόδους, τουλάχιστον όσον αφορά την κατηγοριοποίηση βιολογικών ακολουθιών. Πιο συγκεκριμένα, περιγράφεται η μεθοδολογία για την δημιουργία και εκπαίδευση ενός μοντέλου Συνελικτικών Νευρωνικών Δικτύων που εκτελεί κατηγοριοποίηση ακολουθιών DNA που μπορεί να περιέχουν enhancers (μικρές ακολουθίες που ενισχύουν τη διαδικασία της μεταγραφής του DNA). Παρουσιάζεται βήμα προς βήμα η προεπεξεργασία των δεδομένων, η κατασκευή και εκπαίδευση των νευρωνικών δικτύων, καθώς και όλες οι επιλογές που έγιναν για να βρεθεί η βέλτιστη δομή. Κλείνοντας, γίνεται μια συζήτηση σχετικά με θέματα που απασχολούν ή αναμένεται να απασχολήσουν την έρευνα στον τομέα των συνελικτικών δικτύων, όπως η έλλειψη επαρκούς θεωρητικής κατανόησης και η επιλογή της κατάλληλης αρχιτεκτονικής.
Abstract (translated): Novel high throughput technologies produce a massive amount of experimental biological data, in the form of biological sequences. Processing these data is challenging because of their quantity and complexity. Developing new tools for analysis is crucial. Methods from the field of Machine Learning and, particularly, Deep Learning are extremely promising in applications of Computer Vision. Their performance is our motivation to explore the possibility of using them in applications of Bioinformatics. In the first part of this master thesis we present the major methodologies for multi-layered architectures and relevant work in the field of sequence processing. In the second part we develop a such a model, based on Convolutional Neural Network, in order to verify, experimentally, the validity of using Deep Learning for sequence classification. We present a general framework which classifies DNA enhancers, step by step: preprocessing, network structure, training, as well as the choices that were made in order to improve our model. Lastly, we discuss current or future issues, such as the lack of theoretical understanding or the choice of proper structure for a Convolutional Neural Network.
Appears in Collections:Τμήμα Ιατρικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
ntokos_pez_2019.pdf6.36 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons