Icon

PROYECTO_​DM

ETAPA 1 ANALISIS DE DATOS Y VER SI HAY ALGUNA ANOMALIA(DESBALANCEO EN DATASET)
Lectura de datos, del dataset DEFAULT_CREDIT
ANALIZAMOS, QUE CLIENTES HAN PAGADO Y QUIENES NO
ETAPA 2, VER CARACTERISTICAS DE LOS DEUDORES, PARA UNA SELECCION, CONCISA Y NO ALEATORIA
Se analizó la relación entre el sexo del cliente y el incumplimiento de pago. Los resultados muestran que los hombres presentan una tasa de incumplimiento de 24.17%, mientras que las mujeres presentan una tasa de 20.78%. Por lo tanto, se observa que los clientes masculinos tienen una mayor probabilidad de incumplir sus obligaciones crediticias dentro del conjunto de datos analizado.
Las mayores tasas de incumplimiento son: Preparatoria (25.16%) Universidad (23.74%) Posgrado (19.23%) Los niveles 4, 5 y 6 tienen muy pocos registros, por lo que estadísticamente no son tan confiables para sacar conclusiones.
Al analizar la variable nivel educativo se observó que los clientes con estudios de preparatoria presentan la mayor tasa de incumplimiento (25.16%), seguidos por los clientes con estudios universitarios (23.74%). Los clientes con estudios de posgrado presentan una menor tasa de incumplimiento (19.23%). Esto sugiere que un mayor nivel educativo podría estar asociado con una menor probabilidad de incumplir las obligaciones crediticias.
Respecto al estado civil, se observó que los clientes casados presentan una tasa de incumplimiento de 23.47%, mientras que los clientes solteros presentan una tasa de 20.93%. Aunque la categoría "otros" presenta un porcentaje superior, su cantidad de registros es reducida, por lo que las conclusiones más representativas corresponden a los grupos de casados y solteros.
La variable Edad fue analizada mediante el cálculo de la media para cada una de las clases de la variable objetivo. Se utilizó la media debido a que la edad es una variable numérica continua y esta medida permite obtener un valor representativo de la tendencia central de cada grupo, facilitando la comparación entre clientes deudores y no deudores. Los resultados obtenidos muestran una edad promedio de 35.42 años para los clientes que no incumplieron sus pagos y de 35.73 años para los clientes que sí incumplieron. La diferencia entre ambos grupos es de únicamente 0.31 años, por lo que se considera poco significativa. Con base en estos resultados, se observa que la edad presenta un comportamiento muy similar en ambas clases y no se identifica un patrón claro que permita diferenciar a los clientes deudores de los no deudores. Por esta razón, la edad no parece ser una variable con alta capacidad de discriminación para explicar el incumplimiento de pago y no fue considerada como un criterio principal para la construcción del perfil del cliente deudor.
Se analizó el comportamiento histórico de pago de los clientes mediante el cálculo del promedio de los estados de pago de los meses analizados. Los resultados muestran que los clientes no deudores presentan valores promedio negativos en todos los periodos, indicando un comportamiento de pago puntual o anticipado. En contraste, los clientes deudores presentan valores promedio positivos, lo que refleja retrasos recurrentes en sus pagos. Debido a la diferencia observada entre ambos grupos, el historial de pagos se identifica como una de las variables más relevantes para explicar el incumplimiento de pago y para la construcción de modelos predictivos.
ETAPA 3 CORRELACION, PARA VER QUE VARIABLES SON SIGNIFICATIVAMENTE FUERTES CON LA VO
Las variables con mayor correlación respecto a la variable objetivo son los estados de pago de los seis meses analizados, destacando septiembre (0.3248), agosto (0.2636) y julio (0.2353). Esto indica que el historial de pagos constituye el principal factor asociado al incumplimiento crediticio. Por el contrario, variables como la edad (0.0139) presentan una correlación prácticamente nula y aportan poca capacidad explicativa al fenómeno estudiado.
ETAPA 4: Construcción de la muestra balanceada
Se analizó el límite de crédito otorgado según la variable objetivo. Los resultados muestran que los clientes no deudores poseen un límite de crédito promedio de 178,099.73, mientras que los clientes deudores presentan un promedio de 130,109.66. Asimismo, el límite máximo registrado para los clientes no deudores fue de 1,000,000, superior al observado en los clientes deudores (740,000). Estos resultados sugieren que los clientes con mayores líneas de crédito tienden a presentar menores niveles de incumplimiento, lo cual coincide con la correlación negativa observada entre ambas variables.
Se analizaron los montos promedio facturados durante los seis meses considerados en el estudio. Los resultados muestran que los clientes no deudores presentan valores ligeramente superiores a los clientes deudores en todos los periodos analizados. Sin embargo, las diferencias observadas son relativamente pequeñas, por lo que el nivel de facturación no parece constituir un factor determinante para explicar el incumplimiento de pago. Este comportamiento coincide con los resultados obtenidos en el análisis de correlación, donde las variables de facturación mostraron una relación débil con la variable objetivo.
Se analizaron los montos promedio de los pagos realizados durante los seis meses considerados en el estudio. Los resultados muestran que los clientes no deudores realizan pagos significativamente mayores que los clientes deudores en todos los periodos analizados. Por ejemplo, en septiembre los clientes no deudores realizaron pagos promedio de 6,307.34, mientras que los clientes deudores realizaron pagos promedio de 3,397.04. Este comportamiento sugiere que los clientes que efectúan pagos más elevados presentan una menor probabilidad de incumplimiento.
Para construir la muestra balanceada se consideraron las características predominantes observadas en los clientes deudores. Se identificó que los clientes deudores presentan con mayor frecuencia características como sexo masculino, nivel educativo de preparatoria o universidad, estado civil casado, límites de crédito más bajos, menores pagos realizados y antecedentes de retrasos en el historial de pagos. Estas características fueron utilizadas como referencia para seleccionar una muestra representativa de clientes no deudores, evitando un muestreo completamente aleatorio.
Debido al desbalance existente en la variable objetivo, donde se contaba con 23,364 clientes no deudores y únicamente 6,636 clientes deudores, fue necesario construir una muestra balanceada para el entrenamiento de los modelos de clasificación. Con el objetivo de evitar un muestreo completamente aleatorio, primero se analizaron las características de los clientes deudores. A partir del análisis de correlación se identificó que la variable "Estado de pago en septiembre" presentaba la mayor relación con la variable objetivo (0.3248). Por esta razón, se seleccionaron únicamente aquellos clientes no deudores cuyo estado de pago en septiembre era mayor o igual a cero, obteniendo un subconjunto de 12,489 registros con características de riesgo similares a las observadas en los clientes deudores. Posteriormente, mediante un proceso de muestreo se seleccionaron 6,000 registros de clientes no deudores y 6,000 registros de clientes deudores, obteniendo así un conjunto de datos balanceado de 12,000 registros, el cual fue utilizado para la construcción y evaluación de los modelos predictivos.
Construcción y Entrenamiento de Modelos de Clasificación 5.2 Modelo Árbol de Decisión (Decision Tree)
ETAPA 5.3 – MODELO RANDOM FOREST
El modelo Random Forest obtuvo una exactitud de 86.28%, ligeramente superior al Árbol de Decisión (85.8%). Asimismo, alcanzó un coeficiente de Cohen's Kappa de 0.723, indicando una concordancia sustancial entre las predicciones y los valores reales. La precisión para identificar clientes deudores fue de 98.5%, mientras que la sensibilidad alcanzó 79.7%, lo que demuestra una mejor capacidad para detectar clientes con riesgo de incumplimiento en comparación con el Árbol de Decisión. Debido a su mejor desempeño general, el modelo Random Forest se considera una alternativa más robusta para la clasificación de clientes deudores.
ETAPA 5.4 – Regresión Logística
Column Filter
Concatenate
Column Filter
VO_vs_Edo_civil
GroupBy
Decision Tree Learner
Analisis del Edad
Data to Report (BIRT)
Decision Tree Predictor
Number to String
dividimos en entrenamiento prueba
Table Partitioner
VO_vs_Edad
GroupBy
Column Filter
CSV Writer
Column Filter
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Scorer
Column Filter
Data to Report (BIRT)
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Analisis del Edo_pago
Data to Report (BIRT)
LECTURA_DS_4
CSV Reader
Table Partitioner
Number to String
LECTURA_DS_5
CSV Reader
Scorer
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Random Forest Learner
VO_vs_Edo_de_pago
GroupBy
Random Forest Predictor
CSV Writer
Logistic Regression Learner
Matriz de correlation
Data to Report (BIRT)
Column Filter
Number to String
Linear Correlation
Table Partitioner
LECTURA_DS_5
CSV Reader
correlation_meassure
Data to Report (BIRT)
Analisis del credito promedio
Data to Report (BIRT)
LECTURA_DS_1
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Statistics
CONTAMOS TIPOS CLIENTES
GroupBy
COUNT_CLIENTES
Data to Report (BIRT)
Logistic Regression Predictor
Scorer
VO_vs_limite _de_Credito promedio
GroupBy
Analisis del Facturación promedio
Data to Report (BIRT)
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
Column Filter
VO_vs_Facturación promedio
GroupBy
LECTURA_DS_6
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
VO_vs_Pagos realizados promedio
GroupBy
LECTURA_DS_5
CSV Reader
Column Filter
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Analisis del Pagos realizados promedio
Data to Report (BIRT)
LECTURA_DS_7
CSV Reader
LECTURA_DS_2
CSV Reader
Analisis del Nivel educativo
Data to Report (BIRT)
FILTRAMOS POR PAGO DE SEPTIEMBRE QUE FUE LA DE MAYOR CORRELACION
Row Filter
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
Column Filter
6000 REGISTROS NO DEUDORES
Row Sampler
VO_vs_SEX
GroupBy
Column Filter
Analisis del sexo
Data to Report (BIRT)
SEPARAMOS ENTRE PAGADOR Y NO PAGADOR
Row Splitter
LECTURA_DS_3
CSV Reader
Manipulacion_tabla_ para poner cabeceras
Table Manipulator
VO_vs_NE
GroupBy
6000 registros deudores
Row Sampler
Analisis del Edo_civil
Data to Report (BIRT)

Nodes

Extensions

Links