Εφαρμογή τεχνικών μηχανικής μάθησης για βελτίωση απόδοσης σε μοντέλα ανάκτησης πληροφορίας με χρήση γραφημάτων
Εφαρμογή τεχνικών μηχανικής μάθησης για βελτίωση απόδοσης σε μοντέλα ανάκτησης πληροφορίας με χρήση γραφημάτων
Date
2023
Authors
Κοντογιάννης, Γεώργιος
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Η παρούσα διπλωματική εργασία εισάγει μια καινοτόμο προσέγγιση για τη βελτίωση τόσο της απόδοσης αξιολόγησης όσο και της συνολικής λειτουργικής αποτελεσματικότητας σε μοντέλα ανάκτησης πληροφορίας που βασίζονται σε γραφήματα. Η κύρια εστίαση της είναι σε μια νέα επέκταση του κλασικού Set-Based μοντέλου που βασίζεται σε σύνολα, που αναφέρεται ως GSB (Graphical Set-Based). Με την εκ νέου βαθμονόμηση των βαρών όρων στο στάδιο της ανάκτησης, αξιοποιώντας τη φασματική ομαδοποίηση (spectral clustering) και τις διανυσματικές αναπαραστάσεις (embeddings), η μέθοδος ενισχύει σημαντικά την απόδοση του μοντέλου.
Ένα θεμελιώδες χαρακτηριστικό της προσέγγισης αυτής είναι το κλάδεμα (pruning) του γραφήματος με βάση τις συστάδες που σχηματίστηκαν από την ομαδοποίηση, με αποτέλεσμα κάθε όρος της συλλογής να εκχωρείται σε μία συγκεκριμένη συστάδα. Εφαρμόστηκαν δύο μορφές κλαδέματος, επηρεασμένες από τη δομή αυτών των συ-στάδων: το κλάδεμα εκτός συστάδας, το οποίο στοχεύει στις ακμές που συνδέουν ανόμοια συμπλέγματα και το κλάδεμα εντός συστάδας. Και οι δύο αυτοί τρόποι εκμεταλλεύονται τις διανυσματικές αναπαραστάσεις (embeddings) που προκύπτουν από τη φασματική ομαδοποίηση, επιτρέποντας την αξιολόγηση των ομοιοτήτων των κόμβων. Η διαδικασία κλαδέματος έχει ως αποτέλεσμα πιο διαχειρίσιμα συμπλέγματα, που ορίζονται ως έννοιες (concepts), τα οποία πιθανότατα περιέχουν σημασιολογικά παρόμοιους όρους. Κατά συνέπεια, η έννοια ενός όρου ορίζεται ως το κεντροειδή της αντίστοιχης συστάδας του, παρέχοντας μια πιο ακριβή και αποτελεσματική αναπαράσταση για περαιτέρω επεξεργασία και ανάλυση. Αυτή η στρατηγική κλαδέματος γραφημάτων είναι αναπόσπαστο στοιχείο για τη βελτίωση της απόδοσης και της αποτελεσματικότητας του συνολικού μοντέλου.
Στη φάση της ανάκτησης, αυτά τα εννοιολογικά βαθμονομημένα κεντροειδή χρησιμοποιήθηκαν για να επανασταθμιστούν οι όροι που δημιουργούνται από τα ερωτήματα των χρηστών. Εκμεταλλεύοντας τις προϋπολογισμένες διανυσματικές αναπαραστάσεις (embedings), εφαρμόζουμε αποτελεσματική επέκταση ερωτήματος (query expansion) μέσω της μεθόδου κ-πλησιέστερων γειτόνων (k-Nearest Neighbors), προσφέροντας σημαντική βελτίωση με αμελητέο πρόσθετο χρονικό κόστος.
Η προτεινόμενη τεχνική εφαρμόστηκε σε πολλά μοντέλα ανάκτησης πληροφοριών που βασίζονται σε γραφήματα, όχι μόνο βελτιώνοντας τις μετρήσεις αξιολόγησής τους, αλλά και καταλήγοντας σε πολύ πιο αραιά γραφήματα, διατηρώντας τις ενοιολογικές σχέσεις μεταξύ των κόμβων. Ο μειωμένος αριθμός ακμών αυτών των γραφημάτων υπόσχεται πιο αποτελεσματική εκτέλεση πολύπλοκων εργασιών.
Description
Keywords
Ανάκτηση πληροφορίας, Φασματική ομαδοποίηση, Ανάκτηση πληροφορίας βασισμένη σε γραφήματα, κ-Κοντινότεροι γείτονες