Icon

Exercise

  1. Αναγνωση δεδομενων

  1. Μετατρεψτε τις αλφαριθμητικες στηλες σε αριθμητικες με one hot encoding

  1. Διαχωριστε το dataset σε training 70% και τεστ 30%

  2. Επιλεξτε καταλληλο sampling

2. Σε ενα παραλληλο κλαδο ελεξτε με ενα Bar Chart την κατανομη των κλασεων του risk-level

  1. Με ενα BoxPlot ελεγξτε τη κατανομη των μεταβλητων και αν υπαρχουν ακραιες τιμες

  1. Εκπαιδευστε με το training dataset ενα decision tree για προβλεψη του risk-level, εφαρμοστε το στο test set, και αξιολογηστε το με το Scorer

  2. Απο τις μετρικες του scorer υπολογιστε macro & micro averaging στην F1, τι παρατηρητε;

  3. Τι συμβαινει με για την περιπτωση risk-level=high

  1. Κανονικοποιηστε το training dataset σε 0-1 και εφαρμοστε το ιδιο μοντελο κανονικοποιησης στο test dataset.

  1. Εφαρμοστε SMOTE ΜΟΝΟ στο training dataset με oversample minority classes

  2. Ελεγκτε την κλατανομη των κλασεων με Bar Chart

  3. Εκπαιδευστε με το training dataset ενα decision tree για προβλεψη του risk-level, εφαρμοστε το στο test set, και αξιολογηστε το με το Scorer

  4. Απο τις μετρικες του scorer υπολογιστε macro & micro averaging στην F1, τι παρατηρητε;

  5. Τι συμβαινει με για την περιπτωση risk-level=high

  6. Συγκρινεται με την προηγουμενη περιπτωση

  1. Με τα δεδομενα απο το table partitioner εκπΑιδευστε ενα μοντλελο kNN για την προβλεψη του risk-level

  1. Επαναλαβεται το βημα 17 με τα δεδομεναμετα την κανονικοποιηση.

  2. Που οφειλεται η διαφορα

Αναγνωση Δεδομενων
CSV Reader

Nodes

Extensions

Links