Icon

GMDA_​TPApp_​MD2026_​P1_​con_​DESCRIP

Análisis Exploratorio de Datos (EDA)
Preprocesamiento y Limpieza (Data Cleaning)
Feature Engineering (Agregación RFM+T)
Definición de Target
Carga el dataset desde un archivo Excel.
Excel Reader
Cálculo de métricas descriptivas y detección de valores nulos
Statistics
Se normalizan las variables RFM para evitar que diferencias de escala afecten el algoritmo de clustering.
Normalizer
Analizar la distribución de los datos y detectar posibles asimetrías o valores atípicos.
Histogram
Visualización de valores extremos y distribución de precios/cantidades
Box Plot
Limpieza de Transacciones Canceladas
Row Filter
Convierte la columna InvoiceDate de formato String a Date&Time para habilita r cálculos de antigüedad y recencia.
Date&Time Format Manager
Crea la variable Total_Price multiplicando Quantity por UnitPrice para determinar el valor monetario de cada transacción.
Math Formula
Agrupa todas las transacciones individuales por el ID del cliente para calcular su valor total, su frecuencia de compra y su última fecha de actividad.
GroupBy
Gestión de nulos en el dataset. Se utiliza para eliminar registros sin CustomerID y asegurar que no existan huecos en las variables críticas.
Missing Value
Calcula los días desde la primera compra ($Min$) hasta la fecha de referencia
Date&Time Difference
Elimina transacciones atípicas (outliers) para evitar que datos anormales desvíen los promedios y arruinen el modelo..
Numeric Outliers
Ejecuta operaciones aritméticas para consolidar el monto real de facturación y el ratio de frecuencia de compra por cliente.
Math Formula
Agrega una constante como referencia temporal para calcular la recencia de las compras
Constant Value Column Appender
Calcula los días desde la última compra ($Max$) hasta la fecha de referencia
Date&Time Difference
Identifica relaciones lineales entre variables para detectar multicolinealidad. En este análisis, se aplicó un umbral de $\pm 0.9$ para simplificar el modelo
Linear Correlation
Facilita la interpretación visual de la matriz de correlación. Permite validar gráficamente la cercanía entre Recency y Tavg
Heatmap
Clasifica de forma binaria al cliente: etiqueta como '1' (Abandono) si $Recency > 90$ días y '0 ' (Fidelidad) por defecto. Esta lógica permite identificar patrones de inactividad (segmento superior al 75% )
Rule Engine
Permite validar la transformación de los datos antes de aplicar modelos.
Statistics

Nodes

Extensions

Links