Parameter_Optimization

Parameter Optimization για τον Decision Tree Learner με χρήση Brute Force στρατηγικής

Στην άσκηση αυτή πραγματοποιείται βελτιστοποίηση παραμέτρων για τον κόμβο Decision Tree Learner, χρησιμοποιώντας τη στρατηγική Brute Force και εξετάζοντας μία μόνο παράμετρο.

Συγκεκριμένα, το loop εκτελεί βελτιστοποίηση της παραμέτρου που αφορά τον ελάχιστο αριθμό εγγραφών που απαιτούνται σε έναν κόμβο του δέντρου αποφάσεων. Στόχος είναι να εντοπιστεί η τιμή, από 2 έως 15, η οποία οδηγεί στη μεγαλύτερη ακρίβεια του μοντέλου.

Οι διαφορετικές τιμές της παραμέτρου παράγονται ως flow variables από τον κόμβο Parameter Optimization Loop Start. Στη συνέχεια, οι ρυθμίσεις του αλγορίθμου Decision Tree αντικαθίστανται από αυτές τις flow variables, με αποτέλεσμα να εκπαιδεύονται διαφορετικά δέντρα αποφάσεων με διαφορετικές τιμές της υπό βελτιστοποίηση παραμέτρου. Σε κάθε επανάληψη, ο κόμβος Scorer υπολογίζει την ακρίβεια του μοντέλου και δημιουργεί ένα flow variable με την τρέχουσα τιμή της ακρίβειας. Η τιμή αυτή μεταφέρεται στον κόμβο Parameter Optimization Loop End.

Ο τελικός κόμβος συγκρίνει τις ακρίβειες που προέκυψαν σε όλες τις επαναλήψεις και επιστρέφει στην πρώτη έξοδο τη βέλτιστη τιμή της παραμέτρου, δηλαδή εκείνη που πέτυχε την υψηλότερη απόδοση.

Δημιουργία δεδομένων με τον Data Generator node

Πριν από τη διαδικασία βελτιστοποίησης, τα δεδομένα της άσκησης δημιουργούνται με τον κόμβο Data Generator. Ο κόμβος αυτός παράγει τυχαία δεδομένα που περιλαμβάνουν ομάδες ή clusters, καθώς και ένα καθορισμένο ποσοστό θορύβου. Τα δεδομένα που δημιουργούνται είναι κανονικοποιημένα στο διάστημα [0, 1], γεγονός που τα καθιστά κατάλληλα για χρήση σε πειράματα ταξινόμησης και αξιολόγησης μοντέλων.

Μέσα από τις ρυθμίσεις του Data Generator μπορεί να καθοριστεί ο αριθμός των clusters, το πλήθος των χαρακτηριστικών ή διαστάσεων, το συνολικό πλήθος των παραγόμενων προτύπων, η τυπική απόκλιση των σημείων μέσα σε κάθε cluster, καθώς και το ποσοστό θορύβου. Επιπλέον, η χρήση συγκεκριμένου random seed επιτρέπει την αναπαραγωγή των ίδιων δεδομένων κάθε φορά που εκτελείται το workflow.

Στο Data Generator node, ο όρος “parallel universe” αναφέρεται σε ένα ξεχωριστό σύνολο χαρακτηριστικών ή διαστάσεων, μέσα στο οποίο δημιουργούνται ανεξάρτητα clusters. Κάθε parallel universe μπορεί να έχει διαφορετικό αριθμό χαρακτηριστικών και διαφορετικό αριθμό clusters, επιτρέποντας τη δημιουργία συνθετικών δεδομένων με πολλαπλές δομές ομαδοποίησης.

Με αυτόν τον τρόπο, η άσκηση επιτρέπει στους εκπαιδευόμενους να παρακολουθήσουν ολόκληρη τη διαδικασία: από τη δημιουργία ενός ελεγχόμενου συνόλου δεδομένων, μέχρι την εκπαίδευση πολλαπλών Decision Tree μοντέλων και την επιλογή της παραμέτρου που οδηγεί στη βέλτιστη ακρίβεια.

Parameter_​Optimization