PROYECTO FINAL_DERRAMES_V2

Reglas de Asociación

Regresión Logística

Reglas de Asociación supervisadas; Se supervisó la variable target "Stroke" de manera que solo apareciera en el concecuente. Los parametros usados para descrubir reglas fueron los siguiente:Soporte mínimo->0.005 (La regla aparece en al menos 26 pacientes)Confianza mínima->0.2 (Cuando ocurre el antecedente el concecuente debe ocurrir al menos 20% de la veces)Los valores se escogieron debido al desbalance de la variable stroke, es decir, los valores se traducen a lo siguiente: "Solo quiero reglas que aparezcan en al menos 26 pacientes y que predigan el consecuente al menos el 20% de las veces".Recordemos que solo 249 (4.87%) personas tuvieron un ACV.

Para la regresión lineal se imputó la característica "bmi con la media". Se dividió el conjunto de datos en una proporción 70/30 de manera estratificada debido al desbalance de la clase stroke. Se aplicó una normalización a los datos para no sesgar el modelo con valores numéricos con diferente escala como el nivel de glucosa. Como ya se mencionó, la clase stroke tiene un desbalance, ya que solo el 5% de personas si sufrieron un ACV, esto es importante ya que un modelo que prediga que nadie tendra un acv tendría una precisión del 95% lo cual es completamente inservible. Para abordar dicho desvalance se asigno un mayor peso a la clase minoritaria. El modelo de regresión logistica, en comparación con XGBoost, tuvo mejores resultados en precisión y sensibilidad.

Para el entrenamiento del algoritmo XGBoost se uso de igual manera una partición del 70/30 estratificada, ya se mencionó arriba el porque. De igual manera se asigno un mayor peso a la clase minoritaria y el umbral de decisión se puso en 0.3. Este modelo tuvó peores resultados que la regresión logística ya que no lograba identificar los casos en donde si se tenía un ACV.

PROYECTO FINAL_​DERRAMES_​V2

Nodes

Extensions

Links

Download

PROYECTO FINAL_DERRAMES_V2