Εφαρμογή τεχνικών μηχανικής μάθησης για βελτίωση απόδοσης σε μοντέλα ανάκτησης πληροφορίας με χρήση γραφημάτων
Εφαρμογή τεχνικών μηχανικής μάθησης για βελτίωση απόδοσης σε μοντέλα ανάκτησης πληροφορίας με χρήση γραφημάτων
datacite.contributor.RelatedPerson | Σπύρος Σιούτας | |
datacite.contributor.RelatedPerson | Αριστείδης Ηλίας | |
datacite.contributor.Supervisor | Χρήστος Μακρής | |
dc.contributor.author | Κοντογιάννης, Γεώργιος | |
dc.contributor.other | Kontogiannis, Georgios | |
dc.date.accessioned | 2023-09-06T05:34:28Z | |
dc.date.available | 2023-09-06T05:34:28Z | |
dc.date.issued | 2023 | |
dc.degree | graduateThesis | |
dc.description.abstract | Η παρούσα διπλωματική εργασία εισάγει μια καινοτόμο προσέγγιση για τη βελτίωση τόσο της απόδοσης αξιολόγησης όσο και της συνολικής λειτουργικής αποτελεσματικότητας σε μοντέλα ανάκτησης πληροφορίας που βασίζονται σε γραφήματα. Η κύρια εστίαση της είναι σε μια νέα επέκταση του κλασικού Set-Based μοντέλου που βασίζεται σε σύνολα, που αναφέρεται ως GSB (Graphical Set-Based). Με την εκ νέου βαθμονόμηση των βαρών όρων στο στάδιο της ανάκτησης, αξιοποιώντας τη φασματική ομαδοποίηση (spectral clustering) και τις διανυσματικές αναπαραστάσεις (embeddings), η μέθοδος ενισχύει σημαντικά την απόδοση του μοντέλου. Ένα θεμελιώδες χαρακτηριστικό της προσέγγισης αυτής είναι το κλάδεμα (pruning) του γραφήματος με βάση τις συστάδες που σχηματίστηκαν από την ομαδοποίηση, με αποτέλεσμα κάθε όρος της συλλογής να εκχωρείται σε μία συγκεκριμένη συστάδα. Εφαρμόστηκαν δύο μορφές κλαδέματος, επηρεασμένες από τη δομή αυτών των συ-στάδων: το κλάδεμα εκτός συστάδας, το οποίο στοχεύει στις ακμές που συνδέουν ανόμοια συμπλέγματα και το κλάδεμα εντός συστάδας. Και οι δύο αυτοί τρόποι εκμεταλλεύονται τις διανυσματικές αναπαραστάσεις (embeddings) που προκύπτουν από τη φασματική ομαδοποίηση, επιτρέποντας την αξιολόγηση των ομοιοτήτων των κόμβων. Η διαδικασία κλαδέματος έχει ως αποτέλεσμα πιο διαχειρίσιμα συμπλέγματα, που ορίζονται ως έννοιες (concepts), τα οποία πιθανότατα περιέχουν σημασιολογικά παρόμοιους όρους. Κατά συνέπεια, η έννοια ενός όρου ορίζεται ως το κεντροειδή της αντίστοιχης συστάδας του, παρέχοντας μια πιο ακριβή και αποτελεσματική αναπαράσταση για περαιτέρω επεξεργασία και ανάλυση. Αυτή η στρατηγική κλαδέματος γραφημάτων είναι αναπόσπαστο στοιχείο για τη βελτίωση της απόδοσης και της αποτελεσματικότητας του συνολικού μοντέλου. Στη φάση της ανάκτησης, αυτά τα εννοιολογικά βαθμονομημένα κεντροειδή χρησιμοποιήθηκαν για να επανασταθμιστούν οι όροι που δημιουργούνται από τα ερωτήματα των χρηστών. Εκμεταλλεύοντας τις προϋπολογισμένες διανυσματικές αναπαραστάσεις (embedings), εφαρμόζουμε αποτελεσματική επέκταση ερωτήματος (query expansion) μέσω της μεθόδου κ-πλησιέστερων γειτόνων (k-Nearest Neighbors), προσφέροντας σημαντική βελτίωση με αμελητέο πρόσθετο χρονικό κόστος. Η προτεινόμενη τεχνική εφαρμόστηκε σε πολλά μοντέλα ανάκτησης πληροφοριών που βασίζονται σε γραφήματα, όχι μόνο βελτιώνοντας τις μετρήσεις αξιολόγησής τους, αλλά και καταλήγοντας σε πολύ πιο αραιά γραφήματα, διατηρώντας τις ενοιολογικές σχέσεις μεταξύ των κόμβων. Ο μειωμένος αριθμός ακμών αυτών των γραφημάτων υπόσχεται πιο αποτελεσματική εκτέλεση πολύπλοκων εργασιών. | |
dc.description.translatedabstract | This thesis introduces an innovative approach to enhance both evaluation performance and overall operational efficiency in graph-based information retrieval (IR) models. The primary focus is on a novel extension of the classical Set-Based model, referred to as GSB (Graphical Set-Based). By calibrating term weights at the retrieval stage leveraging Spectral Clustering and Embedding-based Conceptualization, the method significantly boosts the model's performance. A fundamental feature is the execution of graph pruning based on clusters formed by spectral clustering. In this process, spectral clustering is applied to the graph, resulting in each term being assigned to a specific cluster. Two forms of pruning, influenced by the structure of these clusters, were implemented: out-cluster pruning, which targets edges connecting disparate clusters, and in-cluster pruning. Both facilitated by the spectral clustering-induced embeddings, allowing for the evaluation of node similarities. The pruning process results in more manageable clusters, designated as concepts, which likely contain semantically similar terms. Consequently, the concept of a term is defined as the centroid of its respective cluster, providing a more accurate and efficient representation for further processing and analysis. This graph pruning strategy is integral to enhancing the performance and effectiveness of the overall model. In the retrieval phase, these conceptually calibrated centroids were utilized to reweight the terms generated by user queries. We leveraged the pre-computed embeddings for efficient query expansion via k-Nearest Neighbors (KNN) approach, offering significant enhancement with negligible additional time cost. The proposed technique was implemented across several graph-based information retrieval models, not only improving their evaluation metrics but also resulting in sparser graphs. The reduced edge count of these graphs promises more efficient execution of complex tasks. | |
dc.identifier.uri | https://hdl.handle.net/10889/25609 | |
dc.language.iso | el | |
dc.subject | Ανάκτηση πληροφορίας | |
dc.subject | Φασματική ομαδοποίηση | |
dc.subject | Ανάκτηση πληροφορίας βασισμένη σε γραφήματα | |
dc.subject | κ-Κοντινότεροι γείτονες | |
dc.subject.alternative | Information retrieval | |
dc.subject.alternative | Spectral clustering | |
dc.subject.alternative | Graph-based rnformation retrieval | |
dc.subject.alternative | k-Nearest neighbors | |
dc.title | Εφαρμογή τεχνικών μηχανικής μάθησης για βελτίωση απόδοσης σε μοντέλα ανάκτησης πληροφορίας με χρήση γραφημάτων | |
dc.title.alternative | Application of machine learning techniques for performance enhancement in graph-based information retrieval models |