Με τον όρο Classification and Regression Tree (CaRT), εννοείται μία μέθοδος μηχανικής εκμάθησης, κατά την οποία χρησιμοποιείται ένα ορισμένο σύνολο δεδομένων, προκειμένου να συσταθεί ένα μοντέλο πρόβλεψης. Η διαδικασία που ακολουθείται, βασίζεται στον επαναλαμβανόμενο διαχωρισμό των διαθέσιμων παρατηρήσεων και στην εφαρμογή ενός μη πολύπλοκου προβλεπτικού αλγορίθμου σε κάθε διαχωρισμένο υποσύνολο. Ο αλγόριθμος που δημιουργείται, παρουσιάζεται με τη μορφή ενός δέντρου απόφασης το οποίο αποτελείται από ρίζα, διακλαδώσεις και φύλλα. Στην παρούσα εργασία, πραγματοποιήθηκε αρχικά θεωρητική παρουσίαση της μεθόδου CaRT και εν συνεχεία ανάπτυξη παραδείγματος με τη χρήση του στατιστικού λογισμικού πακέτου R-statistic με τις μεθόδους ταξινόμησης Classification Tree και Logistic Regression. Στόχος της εργασίας είναι αφενός, η παρουσίαση της μεθόδου CaRT, αφετέρου, η εξέταση της προβλεπτικής της ικανότητας σε σχέση με παραδοσιακές μεθόδους ανάλυσης. Προς τον σκοπό αυτό, κατά την ανάπτυξη του παραδείγματος, υλοποιήθηκε σύγκριση αποτελεσμάτων που προέκυψαν από την μέθοδο CaRT, των αποτελεσμάτων από την μέθοδο Logistic Regression καθώς και της και υφιστάμενης ανάλυσης, που διενεργήθηκε με την μέθοδο της Λογιστικής Παλινδρόμησης το 2015 με την εργασία των A. Fotiou, E. Kanavou, M. Stavrou, C. Richardson και A. Kokkevi “ Prevalence and correlates of electronic cigarette use among adolescents in Greece: A preliminary cross-sectional analysis of nationwide survey data” . Από τα αποτελέσματα προέκυψαν οι μεταβλητές που καθορίζουν την χρήση του παραδοσιακού και του ηλεκτρονικού τσιγάρου, οι οποίοι είναι το φύλο, η χρήση άλλων ουσιών όπως η κάνναβη και το αλκοόλ, η επίβλεψη της οικογένειας, καθώς και η χρήση τσιγάρου από τα άτομα που συναναστρέφεται ο νέος. Επιπλέον και οι τρεις μέθοδοι οδήγησαν σε παρόμοια αποτελέσματα, κάτι το οποίο ενισχύει την λειτουργικότητα της μεθόδου Classification and Regression Tree.
By Classification and Regression Tree (CaRT), we mean a machine learning method, in which a certain set of data is used to form a prediction model. The procedure which is followed, isbased on the repeated division of the available observations and the application of a non-complex predictive algorithm to each separated subset. The algorithm that is created is presented in the form of a decision tree consisting of roots, branches and leaves. The present work, presents the theory of the CaRT method and then an example, using the R statistical software package with the Classification Tree and Logistic Regression classification methods. The aim of the work is to present the CaRT method and to test its ability to make predictions . The development of the example, includes a comparison of the results from the CaRT method, the results from the Logistic Regression method as well as the existing analysis carried out by the method of Logistic Regression in 2015 with the work of A Fotiou, E. Kanavou, M. Stavrou, C. Richardson and A. Kokkevi “Prevalence and correlates of electronic cigarette use among adolescents in Greece: A preliminary cross-sectional analysis of nationwide survey data”. The results revealed the variables that determine the use of traditional and electronic cigarettes, which are gender, use of other substances such as cannabis and alcohol, family supervision, and cigarette use by the adolescent’s peers . In addition, all three methods yielded similar results, which enhances the functionality of the Classification and Regression Tree method.
Διπλωματική εργασία - Πάντειο Πανεπιστήμιο. Τμήμα Οικονομικής και Περιφερειακής Ανάπτυξης, ΠΜΣ, κατεύθυνση Εφηρμοσμένων Οικονομικών και Διοίκησης, 2020