Icon

Projeto1

Importação dos dados

Etapa de importação do dataset Students Performance para o KNIME. Converte o arquivo CSV em uma tabela que pode ser manipulada ao longo do fluxo.

Em um problema de classificação supervisionada, o objetivo é prever uma categoria (classe) a partir de um conjunto de atributos fornecidos ao modelo. Diferente dos problemas de regressão, onde buscamos estimar um valor contínuo (como uma nota ou probabilidade), na classificação o modelo aprende a distinguir instâncias em grupos diferentes, como alto, médio ou baixo desempenho.

Neste projeto utilizamos o dataset StudentsPerformance, que contém informações de estudantes, como gênero, etnia, nível de escolaridade dos pais, tipo de alimentação oferecida na escola e o desempenho individual em três disciplinas: matemática, leitura e escrita.

Primeiro, os dados foram importados para o KNIME, e em seguida passou-se por uma etapa de preparação e padronização, assegurando melhor interpretação das variáveis pelo modelo. Com o nó Math Formula, foi criado um novo atributo numérico (avg_score), que representa a média das três notas do estudante. Em seguida, por meio do nó Rule Engine, essa média foi convertida em uma variável categórica (performance_level), classificando o desempenho do aluno em três grupos:

  • high (alto desempenho),

  • medium (desempenho intermediário),

  • low (baixo desempenho).

Esse novo atributo categórico passa então a ser a variável alvo do modelo de Machine Learning, permitindo que algoritmos como a Árvore de Decisão identifiquem padrões e prevejam o nível de desempenho de novos estudantes com base nos atributos fornecidos.

Padronização dos nomes

Etapa de padronização dos nomes das colunas para evitar erros e melhorar a legibilidade.

Engenharia de atributo (atributo numérico)

Etapa de criação do atributo alvo da classificação (avg_score - average score). Essa variável sintetiza o desempenho do estudante em uma única medida numérica.

Análise exploratória dos dados

Etapa de análise inicial das colunas e dos tipos de dados, exibindo estatísticas descritivas e identificando valores ausentes e possíveis inconsistências.

Engenharia de atributo (atributo numérico)

Etapa de criação da classe para classificação, transforma a tablea avg_score em categorias (alto, médio e baixo). Esse novo atributo é utilizado como variável alvo no modelo de Machine Learning.

Treinamento do Modelo — Árvore de Decisão

Etapa de processo de aprendizado supervisionado. Os dados são divididos em dois subconjuntos: 70% para treinamento e 30% para teste, utilizando amostragem estratificada para garantir que a proporção das classes seja preservada em ambas as partições. O nó Decision Tree Learner recebe os dados de treinamento e constrói o modelo de árvore de decisão. Em seguida, o nó Decision Tree Predictor aplica o modelo treinado nos dados de teste, gerando uma coluna com as previsões. Por fim, o nó Scorer compara as classes reais com as previstas, produzindo a matriz de confusão e métricas de desempenho como acurácia, permitindo avaliar a qualidade do modelo gerado.

Seleção de atributos

Etapa de remoção da coluna avg_score, pois ela representa a média das três notas do aluno e foi usada para criar a classe performance_level.

Importa o dataset StudentsPerformance para o KNIME
CSV Reader
Padroniza os nomes das colunas, removendo caracteres especiais, espaços e inconsistências
Column Renamer
Cria o atributo avg_score, que representa a média das três notas (matemática, leitura e escrita)
Math Formula
Análise inicial dos dados
Statistics
Converte avg_score que é numérico em categorias (performace_level - high, medium e low)
Rule Engine
Remove a coluna avg_score
Column Filter
Divide a base de dados em 70% para treinamento e 30% para teste com base na coluna performance_level
Table Partitioner
Aprende com os dados de treino econstrói um modelo de árvore de decisão
Decision Tree Learner
Aplica o modelo nos dados de teste
Decision Tree Predictor
Compara os valores reais com os valores previstos, gerando: Acurácia e métricas de desempenho
Scorer

Nodes

Extensions

Links