<p>Este flujo tiene como objetivo construir, entrenar y seleccionar el mejor modelo de clasificación para predecir la probabilidad de que una factura entre en mora, utilizando datos históricos de facturación.</p><p>El proceso se estructura en cinco etapas principales:</p><p>1️⃣ Lectura de datos</p><p>Se cargan los datos históricos de facturas desde un archivo CSV.<br>Estos datos constituyen la base para entrenar el modelo predictivo y contienen información de fechas, montos, comportamiento de pago y variables del cliente.</p><p>2️⃣ Preprocesamiento y generación de variables</p><p>En esta etapa se realiza la preparación de los datos:</p><ul><li><p>Ajuste y normalización de fechas.</p></li><li><p>Cálculo de la variable objetivo <strong>“Mora”</strong>, que indica si la factura fue pagada fuera del plazo establecido.</p></li><li><p>Creación de variables derivadas que capturan el comportamiento histórico del cliente, tales como:</p><ul><li><p>Promedio de días de pago.</p></li><li><p>Porcentaje histórico de facturas en mora.</p></li><li><p>Indicador de factura anterior en mora.</p></li></ul></li></ul><p>Estas variables permiten incorporar información de riesgo basada en comportamiento pasado.</p><p>3️⃣ Entrenamiento de modelos</p><p>La base de datos se divide en:</p><ul><li><p>70% para entrenamiento</p></li><li><p>30% para pruebas</p></li></ul><p>Se entrenan tres modelos de clasificación supervisada:</p><ul><li><p>Regresión Logística</p></li><li><p>Random Forest</p></li><li><p>Gradient Boosted Trees</p></li></ul><p>Cada modelo aprende patrones asociados al incumplimiento de pago.</p><p>4️⃣ Predicción de mora</p><p>Los modelos entrenados se aplican sobre el conjunto de prueba para:</p><ul><li><p>Predecir si la factura entrará en mora.</p></li><li><p>Calcular la probabilidad estimada de mora.</p></li></ul><p>Esto permite evaluar no solo la clasificación binaria, sino también el nivel de riesgo asociado.</p><p>5️⃣ Evaluación y selección del mejor modelo</p><p>Se consolidan las predicciones y probabilidades generadas por cada modelo para:</p><ul><li><p>Comparar métricas de desempeño (accuracy, matriz de confusión, etc.).</p></li><li><p>Analizar resultados comparativos.</p></li><li><p>Seleccionar automáticamente el modelo con mayor capacidad predictiva.</p></li></ul><p>El modelo con mejor desempeño se guarda para su uso en predicciones futuras.</p><p>🎯 Resultado Final</p><p>El flujo permite:</p><ul><li><p>Identificar clientes o facturas con mayor riesgo de mora.</p></li><li><p>Cuantificar probabilidades de incumplimiento.</p></li><li><p>Seleccionar el modelo más robusto de forma automatizada.</p></li><li><p>Dejar preparado un modelo listo para implementación en escenarios reales.</p></li></ul>