Execrcise

Φόρτωση και διερεύνηση δεδομένων
Φορτώστε το Breast Cancer dataset και εξετάστε τη δομή του (πλήθος δειγμάτων, χαρακτηριστικά, κλάσεις). Ελέγξτε την κατανομή της μεταβλητής-στόχου ώστε να διαπιστώσετε τυχόν ανισορροπία κλάσεων.

Διαχωρισμός δεδομένων
Χωρίστε το σύνολο δεδομένων σε σύνολο εκπαίδευσης και σύνολο ελέγχου (π.χ. 70%–30% ή 80%–20%), διατηρώντας την αναλογία των κλάσεων.

Απλό μοντέλο Decision Tree (χωρίς Cross Validation)
Εκπαιδεύστε ένα βασικό μοντέλο Decision Tree χρησιμοποιώντας μόνο το σύνολο εκπαίδευσης. Αξιολογήστε την απόδοσή του στο σύνολο ελέγχου με κατάλληλες μετρικές (accuracy, precision, recall, F₁-score).

Μοντέλο Decision Tree με Cross Validation
Εφαρμόστε k-fold cross validation (π.χ. k = 5 ή 10) στο ίδιο μοντέλο Decision Tree. Υπολογίστε τις μετρικές αξιολόγησης για κάθε fold και εξάγετε τον μέσο όρο των αποτελεσμάτων.

Σύγκριση αποτελεσμάτων
Συγκρίνετε τις επιδόσεις του απλού μοντέλου με εκείνες του μοντέλου που χρησιμοποιεί cross validation. Σχολιάστε τις διαφορές ως προς τη σταθερότητα και την αξιοπιστία των εκτιμήσεων.

Συμπεράσματα
Καταγράψτε τα συμπεράσματά σας σχετικά με τη χρησιμότητα του cross validation στην αξιολόγηση μοντέλων μηχανικής μάθησης και πότε είναι προτιμότερο να χρησιμοποιείται.

Οδηγίες Άσκησης: Σύγκριση Decision Tree με και χωρίς Cross Validation

Nodes

Extensions

Links

Download