Ανάλυση Λόγου του twitter προφίλ @atsipras και όσων έκαναν αναφορά σε αυτόν

Τσέτσος, Ιάσων-Δημήτριος Γ.

Η παρούσα έρευνα, αποσκοπεί στη διερεύνηση του Λόγου που εκφράζεται στα Μέσα Κοινωνικής Δικτύωσης, μεταξύ πολιτικών και χρηστών. Ως δείγματα για την έρευνά μας, χρησιμοποιήθηκαν όλες οι δημοσιεύσεις του Αλέξη Τσίπρα στην πλατφόρμα του Twitter, από τις 13 Ιουλίου του 2011 έως τις 31 Δεκεμβρίου του 2022 και όλες οι αναφορές που έγιναν προς το λογαριασμό αυτό από τις 2 Μαΐου του 2012 έως τις 31 Δεκεμβρίου του 2022. Αφού αποκτήσαμε αυτά τα δεδομένα με τη χρήση εντολών στη γλώσσα προγραμματισμού Python, στη συνέχεια αφαιρέσαμε εκείνα τα στοιχεία που δεν μας ήταν χρήσιμα και επεξεργαστήκαμε κατάλληλα τα δεδομένα, ώστε να μπορέσουμε να τα χρησιμοποιήσουμε με το λογισμικό του Orange. Ακολούθως, εφαρμόσαμε σε αυτά, ειδικές μεθόδους Εξόρυξης Δεδομένων, όπως την Ανάλυση Συναισθημάτων, τη Συσταδοποίηση Κειμένου, τη Σημασιολογική Ανάλυση και τη Θεματική Μοντελοποίηση. Με τη χρήση αυτών των μεθόδων, ο στόχος μας ήταν να αποκτήσουμε ακριβή, μετρήσιμα στοιχεία σχετικά με το περιεχόμενο των δύο συνόλων δεδομένων που συλλέξαμε, να ανακαλύψουμε τυχόν υπάρχοντα μοτίβα και να οδηγηθούμε σε χρήσιμα συμπεράσματα. Συγκεκριμένα, με την Ανάλυση Συναισθημάτων, εντοπίσαμε εκείνα τα συναισθήματα που εκφράζει το κάθε αρχείο κειμένου, χρησιμοποιώντας το μοντέλο κατάταξης 8 συναισθημάτων που επινόησε ο Ekman. Με την εφαρμογή της Ιεραρχικής Συσταδοποίησης, δώσαμε αριθμητικά χαρακτηριστικά γνωρίσματα στα κείμενα, υπολογίσαμε τις αποστάσεις μεταξύ τους και τα χωρίσαμε σε μικρές ομοιογενείς ομάδες, τις συστάδες, έχοντας ως σκοπό τον εντοπισμό τυχόν ενδιαφερόντων ευρημάτων, όπως για παράδειγμα, πανομοιότυπων κειμένων μεταξύ των χρηστών. Χρησιμοποιώντας τεχνικές που εντάσσονται στη Σημασιολογική Ανάλυση, ανακαλύψαμε ομάδες γειτνίασης κειμένων, ανάλογα με την κατανομή τους στο δισδιάστατο χάρτη t-SNE και εξάγαμε λέξεις - κλειδιά από αυτές, έχοντας ως σκοπό να ανακαλύψουμε το κατά πόσο τείνουν να χαρακτηρίσουν τα κείμενα στα οποία ανήκουν. Τέλος, με τη Θεματική Μοντελοποίηση και τη χρήση του αλγορίθμου της Λανθάνουσας Κατανομής Dirichlet, βρήκαμε τις κρυμμένες θεματικές για τα κείμενα των δύο συνόλων δεδομένων που αποκτήσαμε, καθώς και τις λέξεις που χαρακτηρίζουν την κάθε θεματική, ώστε να κατανοήσουμε καλύτερα το περιεχόμενο των tweets του Αλέξη Τσίπρα, όσο και των χρηστών που αναφέρονται σε αυτόν. Η παρούσα Διπλωματική εργασία, εκτός του ότι αποτελεί μια μελέτη περίπτωσης στο πλαίσιο ενός μεταπτυχιακού προγράμματος σπουδών, φιλοδοξεί να εξοικειώσει το ελληνικό κοινό με απλές μεθόδους εύρεσης πληροφοριών μέσα από μεγάλο όγκο κειμενικών δεδομένων, καθώς και να αποτελέσει πηγή έμπνευσης για μελλοντικές έρευνες Ανάλυσης Δεδομένων που αφορούν δημόσια πρόσωπα στην Ελλάδα.