Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/13539
Full metadata record
DC FieldValueLanguage
dc.contributor.authorΜητρούλιας, Δημήτριος-
dc.contributor.otherMitroulias, Dimitrios-
dc.date.accessioned2020-07-12T13:16:36Z-
dc.date.available2020-07-12T13:16:36Z-
dc.date.copyright2020-05-01-
dc.identifier.urihttp://hdl.handle.net/10889/13539-
dc.description.abstractΣε πολλές εφαρμογές ταξινόμησης τα κείμενα σχετίζονται με ένα σύνολο από θεματικές ετικέτες. Ένα σημαντικό πρόβλημα στην ταξινόμηση πολλαπλών ετικετών είναι ο μεγάλος αριθμός τους ο οποίος μπορεί να επηρεάσει αρνητικά τους ταξινομητές στην ποιότητα πρόβλεψης των ετικετών, στον χρόνο εκπαίδευσης τους αλλά και στον χρόνο ταξινόμησης τους με ένα πολύ εκτεταμένο σύνολο μη ισορροπημένων δεδομένων. Στον ιστότοπο του Νομικού Συμβουλίου ο αριθμός των κατηγοριών (λημμάτων) που έχουν επισημειωθεί από τους νομικούς συμβούλους είναι πολύ μεγάλος και αυθαίρετος. Το πρόβλημα που ανακύπτει είναι η δυσκολία ένταξης των νομικών κειμένων σε μονοσήμαντες ετικέτες εξαιτίας της ανισορροπίας του μεγάλου πλήθους λημμάτων. Στόχος της παρούσας διπλωματικής εργασίας είναι να συμβάλει στην ανάπτυξη μιας εφαρμογής αλλά και μοντέλων μηχανικής μάθησης που θα προσδιορίζουν αυτόματα πολλαπλές θεματικές κατηγορίες σε κείμενα γνωμοδοτήσεων του Νομικού Συμβουλίου του Κράτους. Αρχικά μελετήθηκε το περιβάλλον του ιστότοπου του Νομικού Συμβουλίου του Κράτους και η δομή ενός νομικού κειμένου, όπως είναι οι γνωμοδοτήσεις . Για τη δημιουργία των διανυσμάτων εκπαίδευσης μελετήθηκαν οι περιορισμοί που προκύπτουν στο περιβάλλον του ιστοτόπου του Νομικού Συμβουλίου και με τη βοήθεια προγραμμάτων σε γλώσσα Python, εξήχθησαν δεδομένα από το 1980 έως και σήμερα. Πραγματοποιήθηκε εξόρυξη (data scraping) 17451 εγγραφών. Στη συνέχεια πραγματοποιήθηκε η προεπεξεργασία των γνωμοδοτήσεων με χρήση λεκτικής ανάλυσης, και η επιλογή των χαρακτηριστικών διανυσμάτων εκπαίδευσης από το σώμα κειμένων των γνωμοδοτήσεων. Η τεχνική που χρησιμοποιείται κυρίως είναι η αντίστροφη συχνότητα εμφάνισης όρων (TFIDF) με χρήση NGRAMS και τα συνόλα λέξεων (Bag Of Words). Ο λόγος για τον οποίο οι λέξεις τερματικών όρων είναι κρίσιμες για πολλές εφαρμογές είναι ότι, εάν αφαιρέσουμε τις λέξεις που χρησιμοποιούνται πολύ συχνά σε μια δεδομένη γλώσσα, μπορούμε να επικεντρωθούμε στις σημαντικές λέξεις. Αφού μετρήθηκαν και αξιολογήθηκαν τα αποτελέσματα αρκετών ταξινομητών, επιλέχθηκαν οι καλύτεροι ταξινομητές βάσει απόδοσης με σκοπό την ενδελεχή έρευνα της επίδρασης γνωστών τεχνικών μηχανικής μάθησης.el
dc.language.isogrel
dc.subjectΝομικά κείμεναel
dc.subjectΜηχανική μάθησηel
dc.subjectΤαξινόμηση πολλαπλών ετικετώνel
dc.subjectΕξόρυξη δεδομένωνel
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΕπιβλεπόμενη μάθησηel
dc.titleΤαξινόμηση νομοθετικών κειμένων με χρήση επιβλεπόμενης μηχανικής μάθησηςel
dc.title.alternativeClassification of legal texts using supervised machine learning techniquesel
dc.description.translatedabstractIn many sorting applications the texts are associated with a set of thematic tags. A major problem with multiple tag sorting is their large number which may adversely affect the sorter’s predictive quality of labels, their training time and their sorting time with a very extensive set of unbalanced data. On the website of the Legal Council the number of categories (lemma/entries) identified by legal advisors is very large and arbitrary. The problem that arises is the difficulty of incorporating legal texts into unambiguous labels due to the imbalance of the large number of data. The aim of this thesis is to contribute to the development of an application and machine learning models that automatically identify multiple thematic categories in texts of opinions of the Legal Council of State. Initially the environment of the State Council of Law website and the structure of a legal text were studied, such opinions. The constraints that arise in the environment of the Legal Council website have been studied for the creation of training vectors and with the help of Python language programs, data was extracted from 1980 to the present. Carried extraction (data scraping) 17.450 entries. Pre-processing of the opinions was then carried out using verbal analysis, and selection of the characteristic training vectors by the body of opinion texts. The technique used mainly is the inverse terms frequency (TFIDF) using NGRAMS and word sets (Bag Of Words). The reason why the term words are critical for many applications is that if we remove the words that are used very often in a given language we can focus on the important words. Once measured and evaluated the effects of several sorters, the best performance-based sorters were selected in order to thoroughly investigate the effect of known mechanical learning techniques.el
dc.subject.alternativeLegal textel
dc.subject.alternativeMachine learningel
dc.subject.alternativeMulti-label classificationel
dc.subject.alternativeData miningel
dc.subject.alternativeNatural language preprocessingel
dc.subject.alternativeSupervised learningel
dc.degreemasterThesisel
datacite.relatedIdentifier.URLhttps://github.com/mitroulias77/Nskel
datacite.rightshttp://purl.org/coar/access_right/c_abf2el
oaire.licenseConditionhttps://creativecommons.org/licenses/by/4.0/el
datacite.contributor.SupervisorΓαροφαλλάκης Ιωάννης-
datacite.contributor.RelatedPersonΣιούτας Σπυρίδων-
datacite.contributor.RelatedPersonΧατζηλυγερούδης Ιωάννης-
Appears in Collections:Τμήμα Μηχανικών Η/Υ και Πληροφορικής (ΜΔΕ)

Files in This Item:
File Description SizeFormat 
mitroulias_msc_nsk.pdf5.9 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.