Icon

PROYECTO FINAL_​DERRAMES_​V2

Reglas de Asociación
Regresión Logística
XGBoost
Reglas de Asociación supervisadas; Se supervisó la variable target "Stroke" de manera que solo apareciera en el concecuente. Los parametros usados para descrubir reglas fueron los siguiente:Soporte mínimo->0.005 (La regla aparece en al menos 26 pacientes)Confianza mínima->0.2 (Cuando ocurre el antecedente el concecuente debe ocurrir al menos 20% de la veces)Los valores se escogieron debido al desbalance de la variable stroke, es decir, los valores se traducen a lo siguiente: "Solo quiero reglas que aparezcan en al menos 26 pacientes y que predigan el consecuente al menos el 20% de las veces".Recordemos que solo 249 (4.87%) personas tuvieron un ACV.
Para la regresión lineal se imputó la característica "bmi con la media". Se dividió el conjunto de datos en una proporción 70/30 de manera estratificada debido al desbalance de la clase stroke. Se aplicó una normalización a los datos para no sesgar el modelo con valores numéricos con diferente escala como el nivel de glucosa. Como ya se mencionó, la clase stroke tiene un desbalance, ya que solo el 5% de personas si sufrieron un ACV, esto es importante ya que un modelo que prediga que nadie tendra un acv tendría una precisión del 95% lo cual es completamente inservible. Para abordar dicho desvalance se asigno un mayor peso a la clase minoritaria. El modelo de regresión logistica, en comparación con XGBoost, tuvo mejores resultados en precisión y sensibilidad.
Para el entrenamiento del algoritmo XGBoost se uso de igual manera una partición del 70/30 estratificada, ya se mencionó arriba el porque. De igual manera se asigno un mayor peso a la clase minoritaria y el umbral de decisión se puso en 0.3. Este modelo tuvó peores resultados que la regresión logística ya que no lograba identificar los casos en donde si se tenía un ACV.
Column Filter
One-way ANOVA
Bar Chart
HIPERTn
Crosstab
hiperten
Image to Report (BIRT)
HIPERTn
Crosstab
Row Filter
String to Number
corazon
Image to Report (BIRT)
HIPERTn
Crosstab
Bar Chart
HIPERTn
Crosstab
Column Filter
HIPERTn
Crosstab
Bar Chart
HIPERTn
Crosstab
Bar Chart
trabajo
Image to Report (BIRT)
matrimon
Image to Report (BIRT)
Column Filter
"other" en genero
Row Filter
"N/A" en bmi
String to Number
duplicados
Duplicate Row Filter
Bar Chart
stroke a string
Number to String
reside
Image to Report (BIRT)
Discretización
Python Script
quitar variables no relevantes
Column Filter
Column Filter
partición 70/30
Table Partitioner
gluc
Image to Report (BIRT)
binning edad
Numeric Binner
Column Filter
Column Filter
filtro(excluir missings)bmi
Row Filter
Column Filter
Histogram (JavaScript) (legacy)
bmi
Image to Report (BIRT)
CSV Reader
Data to Report (BIRT)
tipo de datos
Data to Report (BIRT)
tipo de datos
Table Creator
Python Script
reglas
Data to Report (BIRT)
Association Rule Learner
Colección
Python Script
Bar Chart
partición 70/30
Table Partitioner
fuma
Image to Report (BIRT)
Stroke a String
Number to String
Histogram (JavaScript) (legacy)
imputarbmi conmedia
Missing Value
String to Number
encoding
Python Script
Matriz de confusión xgboost
Data to Report (BIRT)
Column Filter
Python Script
imputarbmi conmedia
Missing Value
Stroke a String
Number to String
XGBoost Predictor
Scorer
partición 70/30
Table Partitioner
XGBoost Tree Ensemble Learner
metricas regresión
Data to Report (BIRT)
proporcion de datos
Data to Report (BIRT)
Matriz de confusión rl
Data to Report (BIRT)
Vector de Pesos
Rule Engine
Cambio deumbral al 0.3
Rule Engine
Column Filter
edad
Image to Report (BIRT)
proporcion
Table Creator
metricas xgboost
Data to Report (BIRT)
Histogram (JavaScript) (legacy)
Gradient Boosted Trees Learner
genero
Image to Report (BIRT)
Column Filter
HIPERTn
Crosstab
Bar Chart

Nodes

Extensions

Links