Icon

Caso Práctico 2 - Telco Co - Predicción de Churn

Ingesta y limpieza de datos

Estadísticos y tasa de churn

EDA con bar charts

Partición Train/Test

Modelo 1: Árbol de decisión (GINI)

Modelo 3: Random Forest

Modelo 2: Árbol de decisión (GAIN ratio)

Modelo 4: Regresión logística

Modelo 5: Random Forest c/ K-Fold Cross-Validation

Importa el dataset de clientes (Churn.xlsx)
Excel Reader
Elimina columnas irrelevantes o redundantes
Column Filter
Split 70/30 dentro de los no churners
Table Partitioner
Deja Churn como nominal con valores Churn / No_Churn
Rule Engine
Resumen estadísticode todas las columnas
Statistics
Colorea datospara Bar Chart
Color Manager
Set TRAIN(70%)
Concatenate
Divide los datos en 10 folds para validación cruzada
X-Partitioner
Set TEST(30%)
Concatenate
Bosque aleatorio de 100 árboles, cada uno entrenado con bootstrap y subconjuntos aleatorios de atributos que busca mejorar performance respecto al árbol único.
Random Forest Learner
ROC Curve
ROC Curve
Matriz de confusión y métricas del modelo
Scorer
Matriz de confusión y métricasdel modelo
Scorer
Cuenta cuántos Churn y No_Churn hay y calcula la tasa de churn
GroupBy
Reúne las predicciones de cada fold y reconstruye una salida unificada
X-Aggregator
Árbol de decisión binario usando índice de Gini, con poda MDL y mínimo de 30 registros por nodo para reducir sobreajuste.
Decision Tree Learner
Aplica el bosque aleatorio al set de test
Random Forest Predictor
Genera la predicción de clase para cada registro de TEST
Decision Tree Predictor
ROC Curve
Bosque aleatorio de 100 árboles, cada uno entrenado con bootstrap y subconjuntos aleatorios de atributos que busca mejorar performance respecto al árbol único.
Random Forest Learner
Aplica el bosque aleatorio al set de test
Random Forest Predictor
Genera la predicción de clase para cada registro de TEST
Decision Tree Predictor
Tabla Intl_Plan × Churncon conteos por clase
Pivot
Matriz de confusión y métricas del modelo
Scorer
Matriz de confusión y métricasdel modelo
Scorer
Muestra conteos de No_Churn vs Churn para cada Intl_Plan
Bar Chart
Calcula la clase predicha y las probabilidades de churn/no churn para cada cliente de TEST.
Logistic Regression Predictor
Muestra conteo de No_Churn vs Churn para cada Vmail_Plan
Bar Chart
Colorea datospara Bar Chart
Color Manager
Mismo setup que el Modelo 1 pero usando Gain ratio como medida de calidad para comparar contra Gini.
Decision Tree Learner
Crea tabla de contingencia Vmail_Plan × Churn_Flag
Pivot
Entrena una regresión logística multinomial con target Churn, que estima la probabilidad de churn en función de las variables del cliente
Logistic Regression Learner
Separa churners de no churners
Row Splitter
ROC Curve
Split 70/30 dentro de los churners
Table Partitioner
Matriz de confusión y métricasdel modelo
Scorer
ROC Curve

Nodes

Extensions

Links