Icon

PROYECTO_​DM_​2

ETAPA 1 ANALISIS DE DATOS Y VER SI HAY ALGUNA ANOMALIA(DESBALANCEO EN DATASET)
Lectura de datos, del dataset DEFAULT_CREDIT
ANALIZAMOS, QUE CLIENTES HAN PAGADO Y QUIENES NO
ETAPA 3 CORRELACION, PARA VER QUE VARIABLES SON SIGNIFICATIVAMENTE FUERTES CON LA VO
Las variables con mayor correlación respecto a la variable objetivo son los estados de pago de los seis meses analizados, destacando septiembre (0.3248), agosto (0.2636) y julio (0.2353). Esto indica que el historial de pagos constituye el principal factor asociado al incumplimiento crediticio. Por el contrario, variables como la edad (0.0139) presentan una correlación prácticamente nula y aportan poca capacidad explicativa al fenómeno estudiado.
ETAPA 4: Construcción de la muestra balanceada
Para construir la muestra balanceada se consideraron las características predominantes observadas en los clientes deudores. Se identificó que los clientes deudores presentan con mayor frecuencia características como sexo masculino, nivel educativo de preparatoria o universidad, estado civil casado, límites de crédito más bajos, menores pagos realizados y antecedentes de retrasos en el historial de pagos. Estas características fueron utilizadas como referencia para seleccionar una muestra representativa de clientes no deudores, evitando un muestreo completamente aleatorio.
Debido al desbalance existente en la variable objetivo, donde se contaba con 23,364 clientes no deudores y únicamente 6,636 clientes deudores, fue necesario construir una muestra balanceada para el entrenamiento de los modelos de clasificación. Con el objetivo de evitar un muestreo completamente aleatorio, primero se analizaron las características de los clientes deudores. A partir del análisis de correlación se identificó que la variable "Estado de pago en septiembre" presentaba la mayor relación con la variable objetivo (0.3248). Por esta razón, se seleccionaron únicamente aquellos clientes no deudores cuyo estado de pago en septiembre era mayor o igual a cero, obteniendo un subconjunto de 12,489 registros con características de riesgo similares a las observadas en los clientes deudores. Posteriormente, mediante un proceso de muestreo se seleccionaron 6,000 registros de clientes no deudores y 6,000 registros de clientes deudores, obteniendo así un conjunto de datos balanceado de 12,000 registros, el cual fue utilizado para la construcción y evaluación de los modelos predictivos.
Construcción y Entrenamiento de Modelos de Clasificación 5.2 Modelo Árbol de Decisión (Decision Tree)
ETAPA 5.3 – MODELO RANDOM FOREST
El modelo Random Forest obtuvo una exactitud de 86.28%, ligeramente superior al Árbol de Decisión (85.8%). Asimismo, alcanzó un coeficiente de Cohen's Kappa de 0.723, indicando una concordancia sustancial entre las predicciones y los valores reales. La precisión para identificar clientes deudores fue de 98.5%, mientras que la sensibilidad alcanzó 79.7%, lo que demuestra una mejor capacidad para detectar clientes con riesgo de incumplimiento en comparación con el Árbol de Decisión. Debido a su mejor desempeño general, el modelo Random Forest se considera una alternativa más robusta para la clasificación de clientes deudores.
ETAPA 5.4 – Regresión Logística
Se entrenaron tres modelos de clasificación para predecir el incumplimiento de pago de los clientes: Árbol de Decisión, Random Forest y Regresión Logística. El Árbol de Decisión obtuvo una exactitud de 85.8% y un coeficiente Kappa de 0.716. El modelo Random Forest mejoró ligeramente el desempeño, alcanzando 86.28% de exactitud y un Kappa de 0.723. Finalmente, la Regresión Logística presentó el mejor rendimiento con una exactitud de 86.69% y un coeficiente Kappa de 0.732. Con base en estos resultados, la Regresión Logística se seleccionó como el mejor modelo para este conjunto de datos, al ofrecer mayor precisión general y mejor concordancia entre predicciones y valores reales.
ETAPA 5.2.1 – CART, para ver cuanto monto se puede aprobar
Para estimar el monto de crédito que podría aprobarse a un solicitante se aplicó un árbol de regresión CART, usando como variable objetivo el límite de crédito otorgado. Este modelo permitió identificar patrones entre variables financieras como edad, historial de pagos, facturación y pagos mensuales. El modelo final obtuvo un R² de 0.404, lo que indica que explica aproximadamente el 40.4% de la variabilidad del monto aprobado. Este resultado sugiere que el modelo tiene capacidad predictiva moderada y puede servir como apoyo en la toma de decisiones crediticias. Sin embargo, el monto otorgado también depende de factores externos no presentes en el conjunto de datos, lo que limita la precisión del modelo.
reglas de asociacion
ETAPA 2, VER CARACTERISTICAS DE LOS DEUDORES, PARA UNA SELECCION, CONCISA Y NO ALEATORIA
Se analizó la relación entre el sexo del cliente y el incumplimiento de pago. Los resultados muestran que los hombres presentan una tasa de incumplimiento de 24.17%, mientras que las mujeres presentan una tasa de 20.78%. Por lo tanto, se observa que los clientes masculinos tienen una mayor probabilidad de incumplir sus obligaciones crediticias dentro del conjunto de datos analizado.
Las mayores tasas de incumplimiento son: Preparatoria (25.16%) Universidad (23.74%) Posgrado (19.23%) Los niveles 4, 5 y 6 tienen muy pocos registros, por lo que estadísticamente no son tan confiables para sacar conclusiones.
Al analizar la variable nivel educativo se observó que los clientes con estudios de preparatoria presentan la mayor tasa de incumplimiento (25.16%), seguidos por los clientes con estudios universitarios (23.74%). Los clientes con estudios de posgrado presentan una menor tasa de incumplimiento (19.23%). Esto sugiere que un mayor nivel educativo podría estar asociado con una menor probabilidad de incumplir las obligaciones crediticias.
Respecto al estado civil, se observó que los clientes casados presentan una tasa de incumplimiento de 23.47%, mientras que los clientes solteros presentan una tasa de 20.93%. Aunque la categoría "otros" presenta un porcentaje superior, su cantidad de registros es reducida, por lo que las conclusiones más representativas corresponden a los grupos de casados y solteros.
La variable Edad fue analizada mediante el cálculo de la media para cada una de las clases de la variable objetivo. Se utilizó la media debido a que la edad es una variable numérica continua y esta medida permite obtener un valor representativo de la tendencia central de cada grupo, facilitando la comparación entre clientes deudores y no deudores. Los resultados obtenidos muestran una edad promedio de 35.42 años para los clientes que no incumplieron sus pagos y de 35.73 años para los clientes que sí incumplieron. La diferencia entre ambos grupos es de únicamente 0.31 años, por lo que se considera poco significativa. Con base en estos resultados, se observa que la edad presenta un comportamiento muy similar en ambas clases y no se identifica un patrón claro que permita diferenciar a los clientes deudores de los no deudores. Por esta razón, la edad no parece ser una variable con alta capacidad de discriminación para explicar el incumplimiento de pago y no fue considerada como un criterio principal para la construcción del perfil del cliente deudor.
Se analizó el comportamiento histórico de pago de los clientes mediante el cálculo del promedio de los estados de pago de los meses analizados. Los resultados muestran que los clientes no deudores presentan valores promedio negativos en todos los periodos, indicando un comportamiento de pago puntual o anticipado. En contraste, los clientes deudores presentan valores promedio positivos, lo que refleja retrasos recurrentes en sus pagos. Debido a la diferencia observada entre ambos grupos, el historial de pagos se identifica como una de las variables más relevantes para explicar el incumplimiento de pago y para la construcción de modelos predictivos.
Se analizó el límite de crédito otorgado según la variable objetivo. Los resultados muestran que los clientes no deudores poseen un límite de crédito promedio de 178,099.73, mientras que los clientes deudores presentan un promedio de 130,109.66. Asimismo, el límite máximo registrado para los clientes no deudores fue de 1,000,000, superior al observado en los clientes deudores (740,000). Estos resultados sugieren que los clientes con mayores líneas de crédito tienden a presentar menores niveles de incumplimiento, lo cual coincide con la correlación negativa observada entre ambas variables.
Se analizaron los montos promedio facturados durante los seis meses considerados en el estudio. Los resultados muestran que los clientes no deudores presentan valores ligeramente superiores a los clientes deudores en todos los periodos analizados. Sin embargo, las diferencias observadas son relativamente pequeñas, por lo que el nivel de facturación no parece constituir un factor determinante para explicar el incumplimiento de pago. Este comportamiento coincide con los resultados obtenidos en el análisis de correlación, donde las variables de facturación mostraron una relación débil con la variable objetivo.
Se analizaron los montos promedio de los pagos realizados durante los seis meses considerados en el estudio. Los resultados muestran que los clientes no deudores realizan pagos significativamente mayores que los clientes deudores en todos los periodos analizados. Por ejemplo, en septiembre los clientes no deudores realizaron pagos promedio de 6,307.34, mientras que los clientes deudores realizaron pagos promedio de 3,397.04. Este comportamiento sugiere que los clientes que efectúan pagos más elevados presentan una menor probabilidad de incumplimiento.
JUNTAMOS LOS 12K REGISTROS
Concatenate
Column Filter
arbol de decision
Decision Tree Learner
decision predictor
Decision Tree Predictor
hacemos la vo de int a string
Number to String
dividimos en entrenamiento prueba
Table Partitioner
Column Filter
matriz de confusion
Scorer
confusion_m_dt
Data to Report (BIRT)
dividimos en entrenamiento prueba
Table Partitioner
hacemos la vo de int a string
Number to String
mc_forest
Scorer
Column Filter
arbol forest
Random Forest Learner
forest predictor
Random Forest Predictor
Logistic Regression Learner
Number to String
Table Partitioner
LECTURA_DS_1
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Statistics
CONTAMOS TIPOS CLIENTES
GroupBy
COUNT_CLIENTES
Data to Report (BIRT)
VO_vs_limite _de_Credito promedio
GroupBy
FACTURACION PROMEDIO VO
Data to Report (BIRT)
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Column Filter
HACEMOS BINNERS PARA LAS REGLAS
Numeric Binner
VO_vs_Facturación promedio
GroupBy
LECTURA_DS_6
CSV Reader
filtramos binners y reglas
Column Filter
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
reglas de estado de pag septiembre
Rule Engine
mandamos la lista para las reglas
Association Rule Learner
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
ordenamos de mayor a menor
Sorter
Column Filter
sacamos unicamente reglas de deudores
Row Filter
las convertimos en lista
Column Aggregator
reglas de vo
Rule Engine
ESTADISTICOS
Data to Report (BIRT)
VO_vs_Pagos realizados promedio
GroupBy
LECTURA_DS_5
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
PAGO PROMEDIO VO
Data to Report (BIRT)
LECTURA_DS_7
CSV Reader
LECTURA_DS_2
CSV Reader
FILTRAMOS POR PAGO DE SEPTIEMBRE QUE FUE LA DE MAYOR CORRELACION
Row Filter
tabla de ocurrencia
Data to Report (BIRT)
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
6000 REGISTROS NO DEUDORES
Row Sampler
HISTOGRAMA NOMINAL
Data to Report (BIRT)
Column Filter
Matriz_corre
CSV Writer
SEPARAMOS ENTRE PAGADOR Y NO PAGADOR
Row Splitter
Tabla_CM
CSV Writer
ra
Data to Report (BIRT)
CSV Writer
6000 registros deudores
Row Sampler
Column Filter
VO_vs_Edo_civil
GroupBy
vo_edad
Data to Report (BIRT)
VO_vs_Edad
GroupBy
CSV Writer
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
VO_EDO_PAGO
Data to Report (BIRT)
LECTURA_DS_4
CSV Reader
LECTURA_DS_5
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
VO_vs_Edo_de_pago
GroupBy
Matriz de correlation
Data to Report (BIRT)
Column Filter
Linear Correlation
LECTURA_DS_5
CSV Reader
correlation_meassure
Data to Report (BIRT)
LIMITE_VO
Data to Report (BIRT)
confusion_f
Data to Report (BIRT)
CF_RL
Data to Report (BIRT)
Logistic Regression Predictor
MATRIZ DE CONFUSION REGRESION
Scorer
accuracy_dt
Data to Report (BIRT)
Column Filter
ACURACY RL
Data to Report (BIRT)
accuracy_f
Data to Report (BIRT)
dividimos en entrenamiento prueba
Table Partitioner
METRICAZ DE PRONOSTICO
Data to Report (BIRT)
LIMITE_VS_PRONOSTICO
Data to Report (BIRT)
MATRIZ_DE _PRONOSTICO
Numeric Scorer
Column Filter
Column Filter
Simple Regression Tree Learner
ARBOL_PREDICTOR_ LIMITE_DE_CREDITO
Simple Regression Tree Predictor
vo_ne
Data to Report (BIRT)
Column Filter
VO_vs_SEX
GroupBy
Column Filter
sexo_vo
Data to Report (BIRT)
LECTURA_DS_3
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
VO_vs_NE
GroupBy
VO_EDO_CIVIL
Data to Report (BIRT)

Nodes

Extensions

Links