Icon

Solution

<p>Random Forest, Gradient Boosted Trees, and Tree Ensemble<br><br>This workflow solves a binary classification problem on the adult dataset using more advanced algorithms:<br>- Random Forest<br>- Gradient Boosted Trees<br>- Tree Ensemble</p>

URL: Decision Tree Node: Algorithm Settings https://youtu.be/CSwM92yTrJw

  1. Εκπαίδευση Random Forest: Χρησιμοποιούμε τον κόμβο Random Forest Learner για να εκπαιδεύσουμε το μοντέλο στο training set, ορίζοντας 50 trees και minimum node size = 2.

  2. Πρόβλεψη στο test set: Εφαρμόζουμε το εκπαιδευμένο μοντέλο στο test set με τον κόμβο Random Forest Predictor, ώστε να παραχθούν οι προβλέψεις για τη μεταβλητή income.

  3. Αξιολόγηση απόδοσης: Χρησιμοποιούμε τον κόμβο Scorer για να συγκρίνουμε τις πραγματικές τιμές του income με τις προβλεπόμενες τιμές και να υπολογίσουμε δείκτες απόδοσης, όπως accuracy, precision, recall και confusion matrix.

  1. Εκπαίδευση Gradient Boosted Trees: Χρησιμοποιούμε τον κόμβο Gradient Boosted Trees Learner για να εκπαιδεύσουμε το μοντέλο στο training set, ορίζοντας 50 models.

  2. Πρόβλεψη στο test set: Εφαρμόζουμε το εκπαιδευμένο μοντέλο στο test set με τον κόμβο Gradient Boosted Trees Predictor, ώστε να παραχθούν οι προβλέψεις για τη μεταβλητή income.

  3. Αξιολόγηση απόδοσης: Χρησιμοποιούμε τον κόμβο Scorer για να συγκρίνουμε τις πραγματικές τιμές του income με τις προβλεπόμενες τιμές και να υπολογίσουμε τους βασικούς δείκτες απόδοσης του μοντέλου.

  1. Εκπαίδευση Tree Ensemble: Χρησιμοποιούμε τον κόμβο Tree Ensemble Learner για να εκπαιδεύσουμε το μοντέλο στο training set, ορίζοντας τις κατάλληλες παραμέτρους, όπως αριθμό δέντρων και κριτήριο διαχωρισμού.

  2. Πρόβλεψη στο test set: Εφαρμόζουμε το εκπαιδευμένο μοντέλο στο test set με τον κόμβο Tree Ensemble Predictor, ώστε να παραχθούν οι προβλέψεις για τη μεταβλητή income.

  3. Αξιολόγηση απόδοσης: Χρησιμοποιούμε τον κόμβο Scorer για να συγκρίνουμε τις πραγματικές τιμές του income με τις προβλεπόμενες τιμές και να αξιολογήσουμε την απόδοση του Tree Ensemble μοντέλου.

  1. Ανάγνωση dataset: Εισάγουμε το Adult dataset στο KNIME χρησιμοποιώντας έναν κατάλληλο κόμβο, όπως CSV Reader ή File Reader, και ελέγχουμε ότι οι στήλες και οι τύποι δεδομένων έχουν αναγνωριστεί σωστά.

  2. Διαχωρισμός σε training και test set: Χρησιμοποιούμε τον κόμβο Partitioning για να χωρίσουμε τα δεδομένα σε training set και test set, για παράδειγμα σε αναλογία 70%–30%, ώστε τα μοντέλα να εκπαιδευτούν και στη συνέχεια να αξιολογηθούν αντικειμενικά.

Ασκηση 2

Στην άσκηση αυτή χρησιμοποιείται το Adult dataset με στόχο την πρόβλεψη της μεταβλητής income, δηλαδή την εκτίμηση της εισοδηματικής κατηγορίας ενός ατόμου με βάση χαρακτηριστικά όπως η ηλικία, η εκπαίδευση, το επάγγελμα και άλλες δημογραφικές πληροφορίες.

Για την πρόβλεψη εκπαιδεύονται και συγκρίνονται τρία προχωρημένα μοντέλα μηχανικής μάθησης που βασίζονται σε δέντρα αποφάσεων: Random Forest, Tree Ensemble και Gradient Boosted Trees. Το Random Forest δημιουργεί πολλά δέντρα αποφάσεων, συνήθως χρησιμοποιώντας διαφορετικά δείγματα των δεδομένων, και συνδυάζει τις προβλέψεις τους ώστε να πετύχει πιο σταθερά αποτελέσματα. Το Tree Ensemble του KNIME μαθαίνει ένα σύνολο από δέντρα αποφάσεων, όπου κάθε δέντρο μπορεί να εκπαιδευτεί με διαφορετικό σύνολο γραμμών ή/και χαρακτηριστικών. Στη συνέχεια, οι προβλέψεις των επιμέρους δέντρων συνδυάζονται στον αντίστοιχο predictor node με βάση έναν επιλεγμένο τρόπο συνάθροισης των ψήφων τους. Το Gradient Boosted Trees εκπαιδεύει διαδοχικά δέντρα, όπου κάθε νέο δέντρο προσπαθεί να διορθώσει τα λάθη των προηγούμενων, επιτυγχάνοντας συχνά υψηλή ακρίβεια.

Ιδιαίτερη έμφαση δίνεται στο Tree Ensemble node, καθώς αποτελεί ένα ευέλικτο εργαλείο για προβλήματα ταξινόμησης και μπορεί να προσεγγίσει μοντέλα παρόμοια με το Random Forest. Μέσω επιλογών όπως το Data Sampling και το Attribute Sampling, κάθε δέντρο μπορεί να εκπαιδεύεται με διαφορετικό υποσύνολο εγγραφών ή χαρακτηριστικών, μειώνοντας την εξάρτηση από ένα μόνο δέντρο και βελτιώνοντας τη γενίκευση του μοντέλου. Επιπλέον, το node υποστηρίζει χειρισμό ελλιπών τιμών, δυαδικούς διαχωρισμούς για ονομαστικές μεταβλητές και διαφορετικά κριτήρια διαχωρισμού, όπως το Gini Index. Έτσι, προσφέρει μεγαλύτερη σταθερότητα, καλύτερη αντοχή στον θόρυβο και μειωμένο κίνδυνο υπερπροσαρμογής.

Μέσα από το workflow, ο χρήστης εκπαιδεύει τα τρία μοντέλα, αξιολογεί την απόδοσή τους και συγκρίνει ποια μέθοδος είναι καταλληλότερη για την πρόβλεψη του income στο συγκεκριμένο dataset.

70% for training 30 % for testing
Table Partitioner
Αναγνωση του adult dataset
CSV Reader
Scorer
50 models
Gradient Boosted Trees Learner
Scorer
Scorer
50 dec trees min node size = 2
Random Forest Learner
Tree Ensemble Learner
Random Forest Predictor
Tree Ensemble Predictor
Gradient Boosted Trees Predictor

Nodes

Extensions

Links