Αναβάθμιση βιβλιοθήκης επεξεργασίας, αναγνώρισης και κατηγοριοποίησης κειμένου μέσω τεχνητής νοημοσύνης

Thumbnail Image
Date
2023-03-12
Authors
Ρούστας, Κωνσταντίνος
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Tο μεγαλύτερο μέρος της έρευνας στη Μηχανική Μάθηση έχει επικεντρωθεί στο πώς να δημιουργηθούν ισχυρά μοντέλα με ακριβείς δυνατότητες πρόβλεψης και αποτελεσματική γενίκευση. Ένας άλλος σημαντικός στόχος είναι η βελτίωση της ποιότητας της παράδοσης αυτών των μοντέλων ML, κατά τρόπο ώστε η μοντελοποίηση, η ανάπτυξη και η παρακολούθηση (monitoring) να γίνονται ακόμη πιο εύκολες. Η παρούσα εργασία διερευνά αυτό το πρόβλημα προτείνοντας ένα σύστημα για την απόκτηση ελέγχου του κύκλου της Μηχανικής Μάθησης που βελτιώνει τη συνολική εμπειρία του χρήστη. Τα αποτελέσματα πρόσφατων ερευνών σχετικά με την αυτοματοποίηση του κύκλου ML, γνωστά και ως MLOps (Machine Learning Operations), δείχνουν ότι τα συστήματα ML, τα οποία είναι πειραματικά στη φύση τους και έχουν στοιχεία που είναι πολύπλοκα στην κατασκευή και τη λειτουργία τους, μπορούν να απλοποιηθούν και να είναι πιο προσανατολισμένα στον χρήστη, ώστε να βελτιωθεί η διακυβέρνηση και η αποτελεσματικότητά τους. Για αυτό το λόγο δημιουργείται η ανάγκη υλοποίησης βιβλιοθηκών που αφορούν το data processing και την μοντελοποίηση μέσω τεχνητής νοημοσύνης (AI modeling) με σκοπό τη σωστή και αποδοτική λειτουργία των MLOps. Μία τέτοια υλοποίηση προτείνει η παρούσα διπλωματική εργασία, μέσω της αναβάθμισης μιας ήδη υπάρχουσας open - source βιβλιοθήκης (CrossAI). Η αναβάθμισή αυτή αφορά κομμάτια του NLP, όπως το text preprocessing, το feature extraction και το model selection. Η βιβλιοθήκη, εκτός από μεγάλο βαθμό αυτοματοποίησης για τα components που προστίθενται, θα παρουσιάζει σημαντική επιτάχυνση όσον αφορά την υπολογισιμότητα (υπολογιστική πολυπλοκότητα), καθώς βελτιστοποιεί τόσο τους επεξεργαστές CPU όσο και τους επεξεργαστές GPU για τις υπολογιστικές της ανάγκες. Η επιτυχής αξιολόγηση της βιβλιοθήκης γίνεται μεσω της ανάπτυξης ενός web application, όπου ενσωματώνεται και χρησιμοποιείται η υλοποιηθείσα βιβλιοθήκη, ταξινομώντας κείμενα μέσω μοντέλων Μηχανικής Μάθησης τελευταίας τεχνολογίας. Ο χρήστης, μέσω του web app, μπορεί να επιλέξει παραμέτρους, ειδικά σχεδιασμένες για τη βελτιστοποίηση της προεπεξεργασίας, της εξαγωγής χαρακτηριστικών και της δημιουργίας του μοντέλου ML για την ταξινόμηση. Παράλληλα, το web app στο οποίο έχει γίνει το serving της βιβλιοθήκης θα παρέχει χρήσιμα διαγράμματα και μετρήσεις σχετικά με την ταξινόμηση και τη διαδικασία εκπαίδευσης.
Description
Keywords
Μηχανική μάθηση, Εμπειρία χρήστη, Αυτοματοποίηση, Επεξεργασία φυσικής γλώσσας, Προεπεξεργασία κειμένου, Eξαγωγή χαρακτηριστικών, Επιλογή μοντέλου, Υπολογιστική πολυπλοκότητα, Βελτιστοποίηση CPU, Βελτιστοποίηση GPU, Διαδικτυακή εφαρμογή, Μοντέλα μηχανικής μάθησης τελευταίας τεχνολογίας, Βαθιά μάθηση, Ταξινόμηση κειμένου
Citation