Icon

05 Machine Learning

Machine Learning - Exercise

This workflow shows a hands-on exercise in the L1-DS Introduction to KNIME Analytics Platform for Data Scientists - Basics course

Task 2: Decision Tree Model1. Use the same dataset as in task 1 and partition it into a training set (75%) and a test set (25%). Apply stratified samplingto the income column.2. Train a decision tree model on the training set to predict whether or not a person earns more than 50K per year3. Apply the model to the test set4. Evaluate the accuracy of the model with scoring metrics5. Open the configuration dialog of the Scorer (JavaScript) node and exclude those statistics from the class predictionstatistics table that are also present in the confusion matrix. Display the number of rows in the confusion matrix. 6. Evaluate the performance of the model with an ROC curve7. OPTIONAL: Try out other parameter settings to reach a better performance. For example, change the quality measure,pruning method, or minimum number of records. Tarea 1: Regresión Lineal1. Lea el archivo adult_joined.table ejecutando los nodos Table Reader y Missing Value2. Divida los datos en un conjunto de entrenamiento (75 %) y un conjunto de prueba (25 %). Dividir aleatoriamente usandoel nodo Partitioning.3. Entrene un modelo de regresión lineal en el conjunto de entrenamiento para predecir las horas de trabajo semanales.4. Utilice todas las demás columnas excepto la columna "ID" para la predicción.5. Aplique el modelo al conjunto de prueba.6. Evalúe el rendimiento del modelo de regresión lineal con el nodo Numeric Scorer. Read data adult_joined.table Missing Value Table Reader Task 2: Decision Tree Model1. Use the same dataset as in task 1 and partition it into a training set (75%) and a test set (25%). Apply stratified samplingto the income column.2. Train a decision tree model on the training set to predict whether or not a person earns more than 50K per year3. Apply the model to the test set4. Evaluate the accuracy of the model with scoring metrics5. Open the configuration dialog of the Scorer (JavaScript) node and exclude those statistics from the class predictionstatistics table that are also present in the confusion matrix. Display the number of rows in the confusion matrix. 6. Evaluate the performance of the model with an ROC curve7. OPTIONAL: Try out other parameter settings to reach a better performance. For example, change the quality measure,pruning method, or minimum number of records. Tarea 1: Regresión Lineal1. Lea el archivo adult_joined.table ejecutando los nodos Table Reader y Missing Value2. Divida los datos en un conjunto de entrenamiento (75 %) y un conjunto de prueba (25 %). Dividir aleatoriamente usandoel nodo Partitioning.3. Entrene un modelo de regresión lineal en el conjunto de entrenamiento para predecir las horas de trabajo semanales.4. Utilice todas las demás columnas excepto la columna "ID" para la predicción.5. Aplique el modelo al conjunto de prueba.6. Evalúe el rendimiento del modelo de regresión lineal con el nodo Numeric Scorer. Read data adult_joined.tableMissing Value Table Reader

Nodes

Extensions

Links