Icon

Fallstudie 3

Datenaufbereitung

Duration entfernen, weil wir ein "realistic predictiv model" wollen (steht in Anweisungen)

Mit Statistics node nach Ausreißern gesucht:

  • 1. default = yes -> weit unter 1% des Datensatzes (Krasser Ausreißer)

  • 2. education = illiterate ->zu geringe Fallzahl für eine statistische Relevanz

  • marital = unknown -> bildet kein zielgerichtetes Kundensegment und ist statistisch unter 5% (ca. 0.2%)

Output Variable "y" von Missing Values bereinigt (gab keine)

"Pdays" in "zuvor kontaktiert" geändert und als "yes/no" angegeben statt als Tage und "999" für nicht kontaktiert

Resettet die Meta Daten nach dem Ändern des Datensatzes

Loop fü parameter optimisierung und perfekte Bau tiefe

Predicition model

Fügt die Vorhersagen der äußeren crossvalidation zu einer gesamtprognose zusammen

Visualisierung

Ausbalancieren der Trainingsdaten weil starkes ungleichgewicht zwischen Y= Yes/No. ein anruf kostet evtl. 5 Euro kosten bringt aber evtl hunderte Euro ein.

eig. nicht benötigt, aber für wirtschaftliche sicht schlau

Auswertung welche kategorie am wichtigsten ist ( Random Forest learner -> atribute statistics -> split 0)

Decision Tree mit gelicher Ausgangslage

Vergleich der beiden Modelle

Deskriptive Datenanalyse

Column Filter
Domain Calculator
Duplicate Row Filter
Statistics
Row Filter
Data Explorer
Binary Classification Inspector
CSV Reader
Equal Size Sampling
Equal Size Sampling
Scorer (JavaScript)
ROC Curve (JavaScript) (legacy)
Parameter Optimization Loop Start
Scorer (JavaScript)
Decision Tree Learner
Decision Tree Predictor
X-Partitioner
Random Forest Learner
X-Partitioner
Random Forest Predictor
Parameter Optimization Loop End
Row Filter
Table Row to Variable
Equal Size Sampling
X-Aggregator
Scorer
Row Filter
X-Aggregator
Joiner
Row Filter
Rule Engine
Random Forest Learner
X-Aggregator
X-Partitioner
Random Forest Predictor
ROC Curve (JavaScript) (legacy)

Nodes

Extensions

Links