Icon

Execrcise

Οδηγίες Άσκησης: Σύγκριση Decision Tree με και χωρίς Cross Validation

Dataset: Breast Cancer Wisconsin (Diagnostic)

  1. Φόρτωση και διερεύνηση δεδομένων
    Φορτώστε το Breast Cancer dataset και εξετάστε τη δομή του (πλήθος δειγμάτων, χαρακτηριστικά, κλάσεις). Ελέγξτε την κατανομή της μεταβλητής-στόχου ώστε να διαπιστώσετε τυχόν ανισορροπία κλάσεων.

  2. Διαχωρισμός δεδομένων
    Χωρίστε το σύνολο δεδομένων σε σύνολο εκπαίδευσης και σύνολο ελέγχου (π.χ. 70%–30% ή 80%–20%), διατηρώντας την αναλογία των κλάσεων.

  3. Απλό μοντέλο Decision Tree (χωρίς Cross Validation)
    Εκπαιδεύστε ένα βασικό μοντέλο Decision Tree χρησιμοποιώντας μόνο το σύνολο εκπαίδευσης. Αξιολογήστε την απόδοσή του στο σύνολο ελέγχου με κατάλληλες μετρικές (accuracy, precision, recall, F₁-score).

  4. Μοντέλο Decision Tree με Cross Validation
    Εφαρμόστε k-fold cross validation (π.χ. k = 5 ή 10) στο ίδιο μοντέλο Decision Tree. Υπολογίστε τις μετρικές αξιολόγησης για κάθε fold και εξάγετε τον μέσο όρο των αποτελεσμάτων.

  5. Σύγκριση αποτελεσμάτων
    Συγκρίνετε τις επιδόσεις του απλού μοντέλου με εκείνες του μοντέλου που χρησιμοποιεί cross validation. Σχολιάστε τις διαφορές ως προς τη σταθερότητα και την αξιοπιστία των εκτιμήσεων.

  6. Συμπεράσματα
    Καταγράψτε τα συμπεράσματά σας σχετικά με τη χρησιμότητα του cross validation στην αξιολόγηση μοντέλων μηχανικής μάθησης και πότε είναι προτιμότερο να χρησιμοποιείται.

2. Εκπαιδεύστε ένα απλό μοντέλο Decision Tree χρησιμοποιώντας το σύνολο εκπαίδευσης, χωρίς εφαρμογή cross validation ή τεχνικών βελτιστοποίησης. Στη συνέχεια, αξιολογήστε την απόδοσή του στο σύνολο ελέγχου με βασικές μετρικές αξιολόγησης.
  1. Αναγνωση δεδομενων

  1. Εφαρμόστε k-fold cross validation στο μοντέλο Decision Tree και συγκεντρώστε τις προβλέψεις από όλα τα folds. Η απόδοση του μοντέλου εκτιμάται συνολικά, με βάση τα συγκεντρωτικά αποτελέσματα όλων των folds, ώστε να προκύψει πιο αξιόπιστη αξιολόγηση.

Για το συγκεκριμένο τμήμα του workflow, υπολογίστε τις μετρικές αξιολόγησης για κάθε fold ξεχωριστά. Xρησιμοποιήστε τον κόμβο Group Loop Start ώστε να ομαδοποιήσετε τα αποτελέσματα ανά fold και να υπολογίσετε τη μέση τιμή και την τυπική απόκλιση, παρέχοντας έτσι μια συνολική και στατιστικά πιο αντιπροσωπευτική εικόνα της απόδοσης του μοντέλου.
CSV Reader

Nodes

Extensions

Links