Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/13559
Title: Βαθιά μάθηση στη βιοπληροφορική
Other Titles: Deep learning in bioinformatics
Authors: Λαμπράκης, Χρήστος
Keywords: Βαθιά μάθηση
Νευρωνικά δίκτυα
Μηχανική μάθηση
Βιοπληροφορική
Συνελικτικά νευρωνικά δίκτυα
Αναδρομικά νευρωνικά δίκτυα
Ανάλυση γονιδιακής έκφρασης
Μη-κωδικοποιητικό DNA
Keywords (translated): Deep learning
Neural networks
Machine learning
Bioinformatics
Convolutional neural networks
Recurrent neural network
Gene expression analysis
Non-coding DNA
Abstract: Η βαθιά μάθηση, η οποία είναι ιδιαίτερα τρομερή στο χειρισμό μεγάλων δεδομένων, έχει επιτύχει μεγάλη πρόοδο σε διάφορους τομείς, συμπεριλαμβανομένης της Βιοπληροφορικής. Με τις εξελίξεις της μεγάλης εποχής των δεδομένων στη βιολογία, είναι προβλέψιμο ότι η βαθιά εκμάθηση θα αποκτήσει ολοένα και μεγαλύτερη σημασία στον τομέα. Σ΄ αυτή την εργασία, εισάγουμε την έννοια της βαθιάς μάθησης και παραδείγματα των αντιπροσωπευτικών εφαρμογών της στη βιοπληροφορική, συγκεκριμένα στα πεδία της γονιδιωματικής και της μεταγραφωματικής. Αναλυτικότερα, στο Κεφάλαιο 1, παρέχουμε βασικές αρχές καθώς και αλγορίθμους της Μηχανικής Μάθησης. Συγκεκριμένα, επικεντρονώμαστε σε τρεις τύπους μάθησης με επίβλεψη, τη γραμμική και λογιστική παλινδρόμηση όπως και στον αλγόριθμο των κ-Κοντινότερων γειτόνων. Ο λόγος είναι οτι θα συγκριθούν με τις δύο μεθόδους βαθιάς μάθησης που θα παρουσιαστούν στο Κεφάλαιο 3 την D-GEX και DanQ όπου και θα αποδειχθεί μέσω των πειραματικών αποτελεσμάτων ότι υστερούν. Στο Κεφάλαιο 2, γίνεται η ανάλυση της Βαθιάς Μάθησης, αλλά και των Βαθιά Νευρωνικών Δικτύων. Επιπλέον, αναδεικνύονται οι δύο θεμελιώδεις αρχιτεκτονικές της Βαθιάς Μάθησης, τα Συνελικτικά και τα Αναδρομικά Νευρωνικά Δίκτυα. Ιδιαίτερο ενδιαφέρον αποτελεί το ”πάντρεμα”, αυτών των δικτύων καθότι παράγεται η DanQ. Συγκεκριμένα, θα περιγραφεί ο τρόπος χρήσης CNN και RNN για τη πρόβλεψη της λειτουργικότητας μη-κωδικοποιητικού DNA (ncDNA). Στη συνέχεια της εργασίας, στο Κεφάλαιο 3, περιγράφουμε σημαντικές έννοιες της Βιολογίας και αναλύονται σημαντικά πεδία της βιοπληροφορικής όπως η γονιδιωματική, η μεταγραφωματική και η ανάλυση δεδομένων γονιδιακής έκφρασης. Το προφίλ έκφρασης γονιδίων μεγάλης κλίμακας έχει χρησιμοποιηθεί ευρέως για τον χαρακτηρισμό των κυτταρικών καταστάσεων ως απόκριση σε διάφορες καταστάσεις ασθένειας. Παρουσιάζεται μια μέθοδος βαθιάς μάθησης (D-GEX) για την ανάλυση γονιδιακής έκφρασης των γονιδίων στόχων από την έκφραση των γονιδιών οροσήμων. Χρησιμοποιήθηκε το σύνολο δεδομένων, Gene Expression Omnibus, αποτελούμενο από 111.009 προφίλ έκφρασης, για την εκπαιδεύση του μοντέλου και τη συγκρίση της απόδοσής του με αλγορίθμους Μηχανικής Μάθησης. Όσον αφορά το μέσο απόλυτο σφάλμα κατά μέσο όρο σε όλα τα γονίδια, η βαθιά μάθηση ξεπερνά σημαντικά την Γραμμική Παλινδρόμηση με 15.33%. Μια συγκριτική ανάλυση βάσει γονιδίων δείχνει ότι η βαθιά μάθηση επιτυγχάνει χαμηλότερο σφάλμα από τη Γραμμική Παλινδρόμηση στο 99.97% των γονιδίων-στόχων. Τέλος, έγινε δοκιμή της απόδοσης του μοντέλου σε ένα ανεξάρτητο σύνολο δεδομένων GTEx, το οποίο αποτελείται από 2.921 προφίλ έκφρασης. Η βαθιά μάθηση εξακολουθεί να ξεπερνά τη Γραμμική Παλινδρόμηση με σχετική βελτίωση 6.57% και επιτυγχάνει χαμηλότερο σφάλμα στο 81.31% των γονιδίων-στόχων. Στο ευρύτερο πεδίο της γονιδιωματικής, η μοντελοποίηση των ιδιοτήτων και των λειτουργιών των αλληλουχιών DNA είναι ένα σημαντικό, αλλά δύσκολο έργο. Γίνεται ακόμα πιο περίπλοκο, στη περίπτωση του μη-κωδικοποιητικό DNA. Ένα ισχυρό μοντέλο πρόβλεψης για τη λειτουργία του μη κωδικοποιητικού DNA μπορεί να έχει τεράστιο όφελος τόσο για τη βασική επιστήμη όσο και για τη μεταγραφική έρευνα, επειδή πάνω από το 98% του ανθρώπινου γονιδιώματος είναι μη-κωδικοποιητικό. Για την αντιμετώπιση αυτής της ανάγκης, προτάθηκε το DanQ, ένα συνελικτικό και αναδρομικό νευρωνικό δίκτυο.
Abstract (translated): Deep learning, which is especially formidable in handling big data, has achieved great success in various fields, including Bioinformatics. With the advances of the big data era in biology, it is foreseeable that deep learning will become increasingly important in this field. In this task, we provide both the introduction of deep learning, and concrete examples and implementations of its representative applications in bioinformatics. More specifically, in Chapter 1, we introduce basic principles as well as algorithms of Machine Learning. Specifically, we focus on three types of supervised learning, linear and logistic regression, as well as the k-Nearest Neighbor algorithm. The reason they are used is that they will be compared to the two deep learning methods presented in Chapter 3 D-GEX and DanQ wherever they are prove through experimental results that they are lame. In the Chapter 2, the analysis of Deep Learning, but also of Deep Neural Networks is carried out. In addition, the two fundamental architectures of Deep Learning, Convolutional and Reccurent Neural Networks, stand out. Of particular interest is the "marriage" of these networks as DanQ is produced. In particular, the way CNN and RNN will be used to predict non-coding DNA functionality will be described. Following the thesis, in Chapter 3 , we describe important concepts of Biology and analyze important areas of bioinformatics such as genomics, transcriptomics and gene expression data analysis. Large-scale gene expression profiling has been widely used to characterize cellular states in response to various disease conditions. A deep learning method (D-GEX) is presented for the analysis of gene expression of target genes from the expression of ladmark genes. The data set Gene Expression Omnibus, consisting of 111.009 expression profiles, was used to train the model and compare its performance with Machine Learning algorithms. In terms of the average absolute error in all genes, deep learning significantly outperforms LR with 15.33% relative improvement. A gene-wise comparative analysis shows that deep learning achieves lower error than Linear Regression in 99.97% of the target genes. Also, the performance of the model was tested on an independent GTEx dataset, which consists of 2.921 expression profiles. Deep learning still outperforms Linear Regression with 6.57% relative improvement, and achieves lower error in 81.31% of the target genes. Finally, in the broader field of genomics, modeling the properties and functions of DNA sequences is an important but difficult task. It becomes even more complicated in the case of non-coding DNA. A powerful predictive model for the operation of non-coding DNA can an have enormous benefit for both basic science and translational research because over 98% of the human genome is non-coding. To address this need, DanQ, a convolutional and reccurent neural network, was proposed.
Appears in Collections:Τμήμα Μαθηματικών (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
LAMPRAKIS_E_CHRISTOS_THESIS_math.pdf3.44 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.