Ασκηση 2
Στην άσκηση αυτή χρησιμοποιείται το Adult dataset με στόχο την πρόβλεψη της μεταβλητής income, δηλαδή την εκτίμηση της εισοδηματικής κατηγορίας ενός ατόμου με βάση χαρακτηριστικά όπως η ηλικία, η εκπαίδευση, το επάγγελμα και άλλες δημογραφικές πληροφορίες.
Για την πρόβλεψη εκπαιδεύονται και συγκρίνονται τρία προχωρημένα μοντέλα μηχανικής μάθησης που βασίζονται σε δέντρα αποφάσεων: Random Forest, Tree Ensemble και Gradient Boosted Trees. Το Random Forest δημιουργεί πολλά δέντρα αποφάσεων, συνήθως χρησιμοποιώντας διαφορετικά δείγματα των δεδομένων, και συνδυάζει τις προβλέψεις τους ώστε να πετύχει πιο σταθερά αποτελέσματα. Το Tree Ensemble του KNIME μαθαίνει ένα σύνολο από δέντρα αποφάσεων, όπου κάθε δέντρο μπορεί να εκπαιδευτεί με διαφορετικό σύνολο γραμμών ή/και χαρακτηριστικών. Στη συνέχεια, οι προβλέψεις των επιμέρους δέντρων συνδυάζονται στον αντίστοιχο predictor node με βάση έναν επιλεγμένο τρόπο συνάθροισης των ψήφων τους. Το Gradient Boosted Trees εκπαιδεύει διαδοχικά δέντρα, όπου κάθε νέο δέντρο προσπαθεί να διορθώσει τα λάθη των προηγούμενων, επιτυγχάνοντας συχνά υψηλή ακρίβεια.
Ιδιαίτερη έμφαση δίνεται στο Tree Ensemble node, καθώς αποτελεί ένα ευέλικτο εργαλείο για προβλήματα ταξινόμησης και μπορεί να προσεγγίσει μοντέλα παρόμοια με το Random Forest. Μέσω επιλογών όπως το Data Sampling και το Attribute Sampling, κάθε δέντρο μπορεί να εκπαιδεύεται με διαφορετικό υποσύνολο εγγραφών ή χαρακτηριστικών, μειώνοντας την εξάρτηση από ένα μόνο δέντρο και βελτιώνοντας τη γενίκευση του μοντέλου. Επιπλέον, το node υποστηρίζει χειρισμό ελλιπών τιμών, δυαδικούς διαχωρισμούς για ονομαστικές μεταβλητές και διαφορετικά κριτήρια διαχωρισμού, όπως το Gini Index. Έτσι, προσφέρει μεγαλύτερη σταθερότητα, καλύτερη αντοχή στον θόρυβο και μειωμένο κίνδυνο υπερπροσαρμογής.
Μέσα από το workflow, ο χρήστης εκπαιδεύει τα τρία μοντέλα, αξιολογεί την απόδοσή τους και συγκρίνει ποια μέθοδος είναι καταλληλότερη για την πρόβλεψη του income στο συγκεκριμένο dataset.