Icon

20210720 Pikairos optimizar regresión lineal

There has been no description set for this workflow's metadata.

Segunda étapa: Prediccion por DT con numero de muestras maximo limitado.En esta 2da etapa se demuestra que las muestras pueden ser predichas en classificacion con un Accuracy de ~0.80 limitando el n. de muestrasminimo por hoja a 1600 muestrasComo se vera en el modelo resultante, este solo usa 2 variables: -sueldo.base- y -años en la empresa-. La diferencia en Accuracy con respecto a la1era etapa (no limitar el n. de muestras por hoja del DT) no es significativa. Estas dos variables explican el 80 % de la prediccion de renuncia opermanencia. Tercera etapa: En esta 3ra etapa se demuestra que las muestras pueden ser predichas en classificacion con un Accuracy de ~0.80 usandounicamente 2 variables desde el principio: -sueldo.base- y -años en la empresa- y sin limite inferior de muestras. La diferencia en Accuracy conrespecto a la 1era o la 2da etapa (no limitar el n. minimo de muestras por hoja del DT) no es significativa. 1era étapa: Prediccion por DT sin numero de muestras maximo limitado.En esta 1era etapa se evalua la calidad de un DT sobre el Test set sin preseleccion de variables, siendo de un Accuracy de ~0.80. 80% - 20%Aprendizaje enTraining Set (80%)# maximo de muestraspor hoja = 1600Predictionen Test set (20%)ScoringModelo regularizado:5 reglas (hojas) basadasunicamente en -sueldo.base-y -años en la empresa-.bastan para predecir con unaAccuracy ~0.80 equivalentea un DT sin limitede muestras por hojaLecturade la dataRecategorizacionde la claseSegunda Etapa:Entrenamiento unicamentecon años en la empresa y sueldo.base ScoringPredictionen Test set (20%)80% - 20%Aprendizaje enTraining Set (80%)# maximo de muestraspor hoja = 11Modelo no regularizado (604 hojas):El arbol no esta limitado en # de reglas basadaspero esta basado unicamente en -sueldo.base-y -años en la empresa-.La Accuracy ~0.80 es equivalentea un DT con limitede muestras por hoja = 1600Distribucion declases en funcion deaños en la empresa y sueldo.base Permanencia : VerdeRenuncia : RojoNode 132Node 133Segunda Etapa:Aprendizaje unicamentecon años en la empresa y sueldo.base # de muestraspor claseSegunda Etapa:Aprendizaje unicamentecon años en la empresa y sueldo.base Node 137Modelo no regularizado:Modelo resultante de 526 reglas (hojas)sin regularizacion pornumero minimo de muestrasen las hojas del arbol80% - 20%ScoringPredictionen Test set (20%)Node 142Aprendizaje enTraining Set (80%)# maximo de muestraspor hoja = 1600Partitioning DecisionTree Learner Decision TreePredictor Scorer Decision Treeto Ruleset CSV Reader Rule Engine Column Filter Scorer Decision TreePredictor Partitioning DecisionTree Learner Decision Treeto Ruleset Scatter Plot(local) Color Manager Scatter Plot(local) Color Manager Column Filter GroupBy Column Filter Color Manager Decision Treeto Ruleset Partitioning Scorer Decision TreePredictor Scatter Plot(local) DecisionTree Learner Segunda étapa: Prediccion por DT con numero de muestras maximo limitado.En esta 2da etapa se demuestra que las muestras pueden ser predichas en classificacion con un Accuracy de ~0.80 limitando el n. de muestrasminimo por hoja a 1600 muestrasComo se vera en el modelo resultante, este solo usa 2 variables: -sueldo.base- y -años en la empresa-. La diferencia en Accuracy con respecto a la1era etapa (no limitar el n. de muestras por hoja del DT) no es significativa. Estas dos variables explican el 80 % de la prediccion de renuncia opermanencia. Tercera etapa: En esta 3ra etapa se demuestra que las muestras pueden ser predichas en classificacion con un Accuracy de ~0.80 usandounicamente 2 variables desde el principio: -sueldo.base- y -años en la empresa- y sin limite inferior de muestras. La diferencia en Accuracy conrespecto a la 1era o la 2da etapa (no limitar el n. minimo de muestras por hoja del DT) no es significativa. 1era étapa: Prediccion por DT sin numero de muestras maximo limitado.En esta 1era etapa se evalua la calidad de un DT sobre el Test set sin preseleccion de variables, siendo de un Accuracy de ~0.80. 80% - 20%Aprendizaje enTraining Set (80%)# maximo de muestraspor hoja = 1600Predictionen Test set (20%)ScoringModelo regularizado:5 reglas (hojas) basadasunicamente en -sueldo.base-y -años en la empresa-.bastan para predecir con unaAccuracy ~0.80 equivalentea un DT sin limitede muestras por hojaLecturade la dataRecategorizacionde la claseSegunda Etapa:Entrenamiento unicamentecon años en la empresa y sueldo.base ScoringPredictionen Test set (20%)80% - 20%Aprendizaje enTraining Set (80%)# maximo de muestraspor hoja = 11Modelo no regularizado (604 hojas):El arbol no esta limitado en # de reglas basadaspero esta basado unicamente en -sueldo.base-y -años en la empresa-.La Accuracy ~0.80 es equivalentea un DT con limitede muestras por hoja = 1600Distribucion declases en funcion deaños en la empresa y sueldo.base Permanencia : VerdeRenuncia : RojoNode 132Node 133Segunda Etapa:Aprendizaje unicamentecon años en la empresa y sueldo.base # de muestraspor claseSegunda Etapa:Aprendizaje unicamentecon años en la empresa y sueldo.base Node 137Modelo no regularizado:Modelo resultante de 526 reglas (hojas)sin regularizacion pornumero minimo de muestrasen las hojas del arbol80% - 20%ScoringPredictionen Test set (20%)Node 142Aprendizaje enTraining Set (80%)# maximo de muestraspor hoja = 1600Partitioning DecisionTree Learner Decision TreePredictor Scorer Decision Treeto Ruleset CSV Reader Rule Engine Column Filter Scorer Decision TreePredictor Partitioning DecisionTree Learner Decision Treeto Ruleset Scatter Plot(local) Color Manager Scatter Plot(local) Color Manager Column Filter GroupBy Column Filter Color Manager Decision Treeto Ruleset Partitioning Scorer Decision TreePredictor Scatter Plot(local) DecisionTree Learner

Nodes

Extensions

Links