Icon

UC1BRUH Version

Modeling & Evaluation

1) Datenaufnahme

Train / Test extern erstellt: stratifiziert nach Abwanderung, fester Seed. identische Dateien in Alteryx verwendet.

Feature Selection & Engineering

Statistischer Nachweis/Begründung für eine schlanke Merkmalsauswahl (ohne Test-Peeking)

Chi-Quadrat-Test: kategorialen Merkmalen

Ein statistischer Test zur Prüfung auf Unabhängigkeit zwischen zwei kategorialen Merkmalen (hier: Aktuelles Merkmal vs. Churn).

  • Nullhypothese (H0): Es gibt keinen Zusammenhang (Zufall).

  • Ein p-Wert < 0.05 verwirft H0. Das bedeutet: Das Merkmal hat einen signifikanten Einfluss auf die Abwanderung und ist ein wichtiger Prädiktor für das Modell.

  • Die Analyse bestätigt das Phone_Number und Gender keine Zusammenhang mit Zielvariable "Churn" hat.

ANOVA (Numerische Features) :

Ein statistischer Test (Analysis of Variance) zur Prüfung, ob sich die Mittelwerte eines numerischen Merkmals (z. B. Tenure, MonthlyCharges) signifikant zwischen den Churn-Gruppen unterscheiden.

  • Nullhypothese (H0): Die Mittelwerte der Gruppen sind identisch (Das Merkmal verhält sich bei Churnern und Nicht-Churnern gleich).

  • Ein p-Wert < 0.05 verwirft H0. Es gibt einen signifikanten Unterschied im Verhalten des Merkmals zwischen den Gruppen.

  • Ergebnis: lle drei numerischen Merkmale (Tenure, MonthlyCharges, TotalCharges) weisen einen p-Wert von < 0.05 auf.Es gibt einen signifikanten Unterschied in den Mittelwerten zwischen abgewanderten und gebliebenen Kunden. Alle drei Merkmale sind statistisch relevante Prädiktoren und werden für die Modellierung in Betracht gezogen.

Korrelations-Analyse:

Analyse der Abhängigkeiten zwischen den numerischen unabhängigen Variablen, um Redundanzen zu identifizieren.

Ergebnis Korrelations-Analyse: Die Analyse bestätigt eine starke Multikollinearität (r ≈ 0.83) zwischen Tenure und TotalCharges. Da die Gesamtkosten (TotalCharges) direkt von der Laufzeit (Tenure) abhängen, liefern sie kaum neue Informationen, sondern blähen das Modell nur auf. TotalCharges wird aus dem Feature-Set entfernt. Das Modell trainiert nur mit Tenure und MonthlyCharges, um Stabilität zu gewährleisten.

Logistik Regression
Mit Hyperparameter:
Decision Tree
Mit Hyperparameter:
Random Forest:
Mit Hyperparameter:
Gradient Boosted Trees:
Mit Hyperparameter:

Ergebnis:

Die Ergebnisse zeigen, dass einfachere Modelle wie der Decision Tree oft am meisten Potenzial durch Hyperparameter-Optimierung (insb. Pruning und Mindestanzahl pro Blatt) freisetzen können. Während der Random Forest absolut gesehen die meisten Kündiger findet (TP = 430), bietet der optimierte Decision Tree das ausgewogenste Verhältnis aus Verbesserung (+35 % PR-AUC) und Zuverlässigkeit der Wahrscheinlichkeiten (bester Brier Score Improvement).

Spliting Data 70/30 for Tuning

telco_churn_test_30_seed42
CSV Reader
Apply Data Preparation
ROC Curve
Scorer
Logistic Regression Predictor
Parameter Optimization Loop Start
Logistic Regression Learner
Metriken Tabelle
Row Filter
Decision Tree Predictor
Random Forest Predictor
Random Forest Predictor
Random Forest Learner
Perfomance Metrics Visualizations
ROC Curve
Metriken Tabelle
Scorer
Tuned Learners & Predictors
Sortierung nach Relevanz: Ordnet die Merkmale aufsteigend nach dem p-Wert. Die statistisch signifikantesten Merkmale (kleinster p-Wert) stehen oben
Sorter
Variable to Table Column
Parameter Optimization Loop End
Random Forest Learner
Signifikanz-Filter: Behält nur Merkmale mit einem p-Wert ≤ 0.05. Alle statistisch insignifikanten Merkmale (Zufallsrauschen) werden entfernt.
Row Filter
Parameter Optimization Loop Start
Basis Modellen Visualization
ROC Curve
Scorer
Row Filter
Tuned Modellen Visualization
One-way ANOVA
Parameter Optimization Loop End
telco_churn_train_70_seed42
CSV Reader
Parameter Optimization Loop Start
telco_churn_test_30_seed42
CSV Reader
Linear Correlation
Signifikanz-Filter: Behält nur Merkmale mit einem p-Wert ≤ 0.05. Alle statistisch insignifikanten Merkmale (Zufallsrauschen) werden entfernt.
Row Filter
Scorer
Gradient Boosted Trees Learner
EDA
ROC Curve
Gradient Boosted Trees Predictor
Iteriert nacheinander durch die Liste der Spalten.
Column List Loop Start
nur Kategorishce merkmalen
Column Filter
TotalCharges wurde entfernt
Row Filter
Parameter Optimization Loop End
Führt den Chi-Quadrat-Test durch
Crosstab
Rank Correlation
Signifikante Features
Column Filter
Heatmap
Parameter Optimization Loop Start
Correlation Filter
Gradient Boosted Trees Predictor
Performance Calculation
Table Partitioner
SMOTE
Gradient Boosted Trees Learner
Heatmap
Parameter Optimization Loop End
PR-AUC
PR-AUC
PR-AUC
PR-AUC
Loop End
Decision Tree Predictor
Decision Tree Learner
Correlation Filter
Decision Tree View (JavaScript) (legacy)
Logistic Regression Learner
Normalizer
Prädikative Merkmalen
Balanced Churn Visualization
Decision Tree Learner
Kategorie-Konsolidierung
Logistic Regression Predictor
Basis Modellen

Nodes

Extensions

Links