Icon

SMOTE Demo

Το συγκεκριμένο σύνολο δεδομένων προέρχεται αρχικά από το National Institute of Diabetes and Digestive and Kidney Diseases. Στόχος του dataset είναι η διαγνωστική πρόβλεψη του κατά πόσο ένας ασθενής πάσχει από διαβήτη, με βάση ορισμένες διαγνωστικές μετρήσεις που περιλαμβάνονται στα δεδομένα. Για την επιλογή των δειγμάτων τέθηκαν συγκεκριμένοι περιορισμοί από μια μεγαλύτερη βάση δεδομένων. Συγκεκριμένα, όλοι οι ασθενείς είναι γυναίκες, ηλικίας τουλάχιστον 21 ετών, με καταγωγή από τη φυλή των Ινδιάνων Pima.
Στο αρχείο δεδομένων (.csv) περιλαμβάνονται αρκετές μεταβλητές, εκ των οποίων ορισμένες είναι ανεξάρτητες (διάφορες ιατρικές προγνωστικές μεταβλητές), ενώ υπάρχει μία μόνο εξαρτημένη μεταβλητή-στόχος (Outcome).
Το βασικό μοντέλο Decision Tree εφαρμόζεται σε ανισόρροπο σύνολο δεδομένων, χωρίς καμία τεχνική εξισορρόπησης των κλάσεων, ώστε να αποτυπωθεί η αρχική συμπεριφορά του μοντέλου. Η απόδοσή του αξιολογείται με κατάλληλες μετρικές (π.χ. precision, recall, F₁-score), αναδεικνύοντας τους περιορισμούς της ακρίβειας (accuracy) σε περιπτώσεις class imbalance.

Το μοντέλο Decision Tree εφαρμόζεται σε σύνολο δεδομένων με ανισορροπία κλάσεων, αφού προηγηθεί κανονικοποίηση των χαρακτηριστικών και εξισορρόπηση των κλάσεων με τη μέθοδο SMOTE. Η προσέγγιση αυτή στοχεύει στη βελτίωση της ικανότητας του μοντέλου να αναγνωρίζει τη μειοψηφική κλάση, οδηγώντας σε πιο αντιπροσωπευτικές και αξιόπιστες μετρικές αξιολόγησης.

Table Partitioner
Decision Tree Learner
Decision Tree Predictor
Scorer
SMOTE
Normalizer
Decision Tree Predictor
Normalizer (Apply)
Scorer
Bar Chart
Decision Tree Learner
CSV Reader
Bar Chart

Nodes

Extensions

Links