1. Importazione dei Dati
Excel Reader (CallsData.xls):
Carica i dati sulle abitudini di chiamata dei clienti. Include variabili come:
Minuti di chiamata (giorno, sera, notte, internazionali)
Costi delle chiamate
Numero di chiamate ai servizi clienti
CSV Reader (ContractData.csv):
Carica i dati contrattuali dei clienti. Include informazioni come:
Durata del contratto (Account Length)
Stato di residenza (State)
Partecipazione a piani internazionali e voicemail (Int'l Plan, VMail Plan)
Churn: variabile target (0 = Non abbandona, 1 = Abbandona)
Table Reader (newtable_pro.table):
Carica una nuova tabella di aggiornamento
2. Integrazione dei Dati
Joiner:
Unisce i dati di CallsData e ContractData sulla base di colonne comuni (Area Code e Phone), creando un dataset completo con tutte le informazioni sui clienti.
Concatenate:
Combina i dati ottenuti dal Joiner con quelli caricati direttamente dal Table Reader.
3. Preprocessing dei Dati
Number to String:
Converte colonne numeriche in stringhe, utile per gestire correttamente i dati.
Color Manager:
Assegna colori distintivi ai dati per facilitare l’analisi visiva. Con i clienti che hanno abbandonato (Churn = 1)con il colore rosso rispetto a quelli che non lo hanno fatto (Churn = 0) colore verde.
Missing Value:
Gestisce i valori mancanti nei dati garantendo che il modello non fallisca a causa di dati incompleti.
4. Suddivisione e Costruzione del Modello
Partitioning:
Divide il dataset in due parti:
Training Set (per addestrare il modello)
Test Set (per valutare le performance del modello)
Usato 80%-20%.
Decision Tree Learner:
Addestra un albero decisionale utilizzando il training set. Il modello impara a prevedere il churn sulla base dei pattern presenti nei dati.
Decision Tree Predictor:
Applica il modello addestrato al test set per effettuare previsioni. Le previsioni vengono confrontate con i valori reali di Churn.
5. Valutazione del Modello
Scorer:
Confronta le previsioni con i dati reali di Churn. Fornisce metriche di performance come:
Accuracy: Percentuale di previsioni corrette.
Precision: Percentuale di clienti previsti come churner che lo sono realmente.
Recall (Sensibilità): Percentuale di churner identificati correttamente.
F1-Score: Media armonica tra precision e recall.
ROC Curve:
Valuta la capacità predittiva del modello.
L'asse X rappresenta la False Positive Rate (1 - Specificità).
L'asse Y rappresenta la True Positive Rate (Sensibilità).
AUC (Area Under Curve): Misura complessiva di accuratezza del modello. Un AUC vicino a 1 indica un modello eccellente, mentre un valore vicino a 0.5 indica una classificazione casuale.
To use this workflow in KNIME, download it from the below URL and open it in KNIME:
Download WorkflowDeploy, schedule, execute, and monitor your KNIME workflows locally, in the cloud or on-premises – with our brand new NodePit Runner.
Try NodePit Runner!