Icon

auto-mpg-rascunho

Em um problema de regressão, o objetivo é prever as saídas (outputs) de um valor contínuo, como um preço ou probabilidade. Em contraste de problemas de classificação, onde temos o próposito de escolher uma classe em uma lista de classificações (por exemplo, se uma imagem contem uma maçã ou laranja, assim reconhecendo qual fruta é representada na imagem).

Este notebook usa a clássica base de dados Auto MPG e constrói um modelo para prever a economia de combustiveis de automóveis do final dos anos 1970, inicio dos anos 1980. Para isso, forneceremos um modelo com descrição de vários automóveis desse período. Essa descrição inclui atributos como: cilindros, deslocamento, potência do motor, e peso.

Para melhorar a organização, recomenda-se:

  • Utilizar loops

  • Criar componentes

One-Hot Encoding da Variável 'origin':
One to Many
Renomeia Códigos: Substitui os códigos numéricos pelos nomes descritivoscorrespondentes (USA, Europe, Japan).
Column Renamer
EDA de Variáveis Categóricas/Binárias: Calcula frequências e ocorrências para as colunas nominais (maker, model) e as novas variáveis binárias de origem (USA, Japan, Europe).
Statistics
Reamostragem (Oversampling) para balancear a coluna
SMOTE
Redução de Dimensionalidade (PCA): Transforma as features numéricas e binárias em 10 novos componentes principais.
PCA
aplicando o pré-processamento de Normalização/Padronização a um subconjunto das variáveis preditoras numéricas.
Normalizer
EDA de Qualidade: Verifica as frequências (contagens) das variáveis categóricas
Statistics
Divisão para Modelagem: Particiona o conjunto de dados em 80% (Treinamento) e 20% (Teste) usando amostragem aleatória.
Table Partitioner
Cálculo de Estatísticas: Análise da distribuição e contagem de valores apenas para as variáveis nominais/categóricas
Statistics
Cálculo de Estatísticas: Cálculo das estatísticas descritivas para as colunas: cylinders, weight, model_year, origin, maker e model.
Statistics
Verificação de Frequência de Categorias/Binárias: Analisa as contagens e a distribuição de frequência das variáveis nominais
Statistics
Verificação de Frequência de Categorias/Binárias
Statistics
Início da Validação Cruzada (10-Folds): Divide o conjunto de dados em 10 dobras (folds) para treinamento e teste iterativo.
X-Partitioner
Verificação Final de Categorias: Calcula a frequência e as contagens de ocorrências apenas para as variáveis categóricas,ignorando o PCA.
Statistics
Preparação de Dados: Converte colunas categóricas
String to Number
One-Hot Encoding da Origem: Converte a coluna categórica origin em múltiplas colunas binárias (0 ou 1).Remove a coluna para evitar redundancia.
Statistics
Verificação de Frequência (Nominais/Binárias): Calcula frequências e contagens para as variáveis categóricas
Statistics
Amostragem relativa: seleciona 56% das linhas aleatoriamente,com semente fixa para garantir reprodutibilidade.
Row Sampler
Filtro de Linhas (Segmentação): Filtra e retém apenas as linhas onde a coluna origin é igual a 2 (Isola a segunda categoria de origin).
Row Filter
1. mpg: continuous2. cylinders: multi-valued discrete3. displacement: continuous4. horsepower: continuous5. weight: continuous6. acceleration: continuous7. model year: multi-valued discrete8. origin: multi-valued discrete9. car name: string
CSV Reader
Remover espaços duplosda coluna 0
String Manipulation
Divide o conteúdo da coluna Column0 em várias colunas, utilizando espaço em branco como delimitador.
Cell Splitter
Substitui valores isolados ‘NA’ (ausência de dado) por ‘?’ para marcar missing values de forma explícita.
String Manipulation
Renomear as colunas para nomes descritivos e padronizados
Column Renamer
Normalizar espaços em branco na coluna Column1, substituindo múltiplos espaços por um único.
String Manipulation
Combinação de Dados: Combina as linhas dos fluxos de dados de entrada em uma única tabela
Concatenate
Combinação de Dados: Agrupa as linhas dos diferentes fluxos
Concatenate
Combinação de Dados
Concatenate
Combinação de Dados
Concatenate
Combinação de Dados
Concatenate
Amostragem do Subconjunto
Row Sampler
Filtra o Subconjunto
Row Filter
Combinação de Dados
Concatenate
Filtro de Linhas (Segmentação): Filtra e retém apenas as linhas onde a coluna origin é igual a 1 (Isola a primeira categoria de origin).
Row Filter
Combinação de Dados
Concatenate
Filtro de Linhas (Segmentação): Filtra e mantém apenas as linhas onde a coluna origin é igual a 3
Row Filter
Remover espaços extras e o caractere “?” da coluna model para limpar valores de texto.
String Manipulation
Filtra o Subconjunto
Row Filter
Análise Descritiva (EDA) do Conjunto Final
Statistics
Filtra o Subconjunto
Row Filter
repito o processode split
Cell Splitter
save
CSV Writer
Combinação de Dados
Concatenate
Combinar subcolunas de Column1_Arr em uma única coluna consolidada.
Column Combiner
Leitura dos Dados Brutos de Carros.Colunas 'horsepower', 'mpg', etc. lidas corretamente (incluindo valores ausentes '?').
CSV Reader
EDA Focada em Variáveis de Apoio: Calcula estatísticas descritivas para um subconjunto de variáveis numéricas
Statistics
remoção de colunas não usadas
Column Filter
Amostragem do Subconjunto
Row Sampler
ajuste do nomeda coluna
Column Renamer
Amostragem Aleatória: Seleciona um subconjunto de 70 linhas aleatórias do fluxo de dados
Row Sampler
coverto a coluna origin
Number to String
Tratamento de Missing Values Padrão do KNIME.(Lidar com ausentes azuis/vermelhos, se houver).
Missing Value
Remove o caractere '?' da coluna horsepower,permitindo sua conversão.
String Manipulation
Remove o caractere “?”da subcoluna Column0_Arr[0], limpando marcadores de valores ausentes.
String Manipulation

Nodes

Extensions

Links