Em um problema de classificação supervisionada, o objetivo é prever uma categoria (classe) a partir de um conjunto de atributos fornecidos ao modelo. Diferente dos problemas de regressão, onde buscamos estimar um valor contínuo (como uma nota ou probabilidade), na classificação o modelo aprende a distinguir instâncias em grupos diferentes, como alto, médio ou baixo desempenho.
Neste projeto utilizamos o dataset StudentsPerformance, que contém informações de estudantes, como gênero, etnia, nível de escolaridade dos pais, tipo de alimentação oferecida na escola e o desempenho individual em três disciplinas: matemática, leitura e escrita.
Primeiro, os dados foram importados para o KNIME, e em seguida passou-se por uma etapa de preparação e padronização, assegurando melhor interpretação das variáveis pelo modelo. Com o nó Math Formula, foi criado um novo atributo numérico (avg_score), que representa a média das três notas do estudante. Em seguida, por meio do nó Rule Engine, essa média foi convertida em uma variável categórica (performance_level), classificando o desempenho do aluno em três grupos:
Esse novo atributo categórico passa então a ser a variável alvo do modelo de Machine Learning, permitindo que algoritmos como a Árvore de Decisão identifiquem padrões e prevejam o nível de desempenho de novos estudantes com base nos atributos fornecidos.