Ανάλυση περιβαλλοντικών δεδομένων σε περιβάλλον Apache Spark με MCMC τεχνικές δειγματοληψίας και μηχανικής μάθησης

Loading...
Thumbnail Image

Date

2023-05

Authors

Βλάχου, Ελένη

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Η ανάλυση περιβαλλοντικών δεδομένων συμβάλλει άμεσα στην κατανόηση των επιπτώσεων της ατμοσφαιρικής ρύπανσης, τόσο στην ανθρώπινη υγεία όσο και στο περιβάλλον. Με γνώμονα αυτές τις αναλύσεις μπορούν να διαμορφωθούν ενημερωμένες και επιστημονικά τεκμηριωμένες πολιτικές για την αντιμετώπιση περιβαλλοντικών ζητημάτων. Η παρούσα εργασία μελετά τη χρήση του περιβάλλοντος Apache Spark, της δειγματοληψίας MCMC και των μεθόδων μηχανικής μάθησης(ML) για την ανάλυση περιβαλλοντικών δεδομένων, συγκεκριμένα των συγκεντρώσεων ατμοσφαιρικών ρύπων στην πόλη της Μαδρίτης, από τον Ιανουάριο του 2001 έως τον Απρίλιο του 2018. Για την κατηγοριοποίηση του AQI σε «ασφαλές» ή «επικίνδυνο» χρησιμοποιείται Bayesian Logistic Regression με δειγματοληψία MCMC, ενώ το Apache Spark χρησιμοποιείται για την κλιμάκωση των προβλέψεων σε μεγαλύτερα σύνολα δεδομένων. Ενώ το κλασικό ML εξαρτάται από ένα σταθερό σύνολο παραμέτρων και προϋποθέτει πλήρη και ακριβή δεδομένα, το Bayesian ML ακολουθεί μια πιθανολογική προσέγγιση, συνδυάζοντας εκ των προτέρων πεποιθήσεις με τα δεδομένα που έχουν ήδη παρατηρηθεί, για τη δημιουργία μιας εκ των υστέρων κατανομής των παραμέτρων. Έτσι, επιτυγχάνεται πιο ισχυρή και ευέλικτη μοντελοποίηση και βελτιώνεται η ακρίβεια πρόβλεψης. Ποσοτικοποιεί επίσης την αβεβαιότητα των δεδομένων, στοιχείο σημαντικό για τη λήψη αποφάσεων υψηλής συνέπειας. Εδώ, το μοντέλο αρχικά εκπαιδεύεται χρησιμοποιώντας τα δεδομένα του 2017 και στη συνέχεια κάνει προβλέψεις στα δεδομένα δεκαοκταετιάς. Έπειτα, χρησιμοποιούνται τα ίδια δεδομένα την υλοποίηση Frequentist Logistic Regression σε Spark. Τα αποτελέσματα δείχνουν ότι τα Frequentist και Bayesian μοντέλα λογιστικής παλινδρόμησης εμφανίζουν παρόμοιες μετρικές για τα συγκεκριμένα δεδομένα, ωστόσο το Bayesian μοντέλο αποδίδει καλύτερα όσον αφορά τη μετρική "Recall/Specificity", με τιμές έως 0.9588. Συγκεκριμένα, επιστρέφει λιγότερα ψευδώς αρνητικά και θετικά αποτελέσματα, διασφαλίζοντας ότι το AQI δεν ταξινομείται λανθασμένα ως ασφαλές. Συμπεραίνεται επομένως ότι το Bayesian ML αποτελεί χρήσιμο εργαλείο για την ανάλυση περιβαλλοντικών δεδομένων, ιδίως σε περιπτώσεις λήψης αποφάσεων με υψηλή συνέπεια, όπου είναι απαραίτητο να λαμβάνεται υπόψη η αβεβαιότητα. Κλείνοντας, παρουσιάζονται προτάσεις για μελλοντική έρευνα, όπως είναι η περαιτέρω διερεύνηση των μοντέλων Bayesian μηχανικής μάθησης και η ανάπτυξη επεκτάσιμων αλγορίθμων για παράλληλη επεξεργασία. Η παρούσα εργασία τονίζει τη σημασία της ανάλυσης περιβαλλοντικών δεδομένων και αναδεικνύει τις δυνατότητες της Bayesian μηχανικής μάθησης και των τεχνολογιών μεγάλων δεδομένων στις δράσεις για την προστασία του περιβάλλοντος και της δημόσιας υγείας.

Description

Keywords

Δειγματοληψία MCMC, Bayesian λογιστική παλινδρόμηση, Συμπέρασμα του Bayes, Ανάλυση περιβαλλοντικών δεδομένων, Δεδομένα μεγάλου όγκου

Citation