1. Importazione dei Dati
Excel Reader (CallsData.xls):
Carica i dati sulle abitudini di chiamata dei clienti. Include variabili come:
Minuti di chiamata (giorno, sera, notte, internazionali)
Costi delle chiamate
Numero di chiamate ai servizi clienti
CSV Reader (ContractData.csv):
Carica i dati contrattuali dei clienti. Include informazioni come:
Durata del contratto (Account Length)
Stato di residenza (State)
Partecipazione a piani internazionali e voicemail (Int'l Plan, VMail Plan)
Churn: variabile target (0 = Non abbandona, 1 = Abbandona)
Table Reader (newtable_pro.table):
Carica una nuova tabella di aggiornamento
2. Integrazione dei Dati
Joiner:
Unisce i dati di CallsData e ContractData sulla base di colonne comuni (Area Code e Phone), creando un dataset completo con tutte le informazioni sui clienti.
Concatenate:
Combina i dati ottenuti dal Joiner con quelli caricati direttamente dal Table Reader.
3. Preprocessing dei Dati
Number to String:
Converte colonne numeriche in stringhe, utile per gestire correttamente i dati.
Color Manager:
Assegna colori distintivi ai dati per facilitare l’analisi visiva. Con i clienti che hanno abbandonato (Churn = 1)con il colore rosso rispetto a quelli che non lo hanno fatto (Churn = 0) colore verde.
Missing Value:
Gestisce i valori mancanti nei dati garantendo che il modello non fallisca a causa di dati incompleti.
4. Suddivisione e Costruzione del Modello
Partitioning:
Divide il dataset in due parti:
Training Set (per addestrare il modello)
Test Set (per valutare le performance del modello)
Usato 80%-20%.
Decision Tree Learner:
Addestra un albero decisionale utilizzando il training set. Il modello impara a prevedere il churn sulla base dei pattern presenti nei dati.
Decision Tree Predictor:
Applica il modello addestrato al test set per effettuare previsioni. Le previsioni vengono confrontate con i valori reali di Churn.
5. Valutazione del Modello
Scorer:
Confronta le previsioni con i dati reali di Churn. Fornisce metriche di performance come:
Accuracy: Percentuale di previsioni corrette.
Precision: Percentuale di clienti previsti come churner che lo sono realmente.
Recall (Sensibilità): Percentuale di churner identificati correttamente.
F1-Score: Media armonica tra precision e recall.
ROC Curve:
Valuta la capacità predittiva del modello.
L'asse X rappresenta la False Positive Rate (1 - Specificità).
L'asse Y rappresenta la True Positive Rate (Sensibilità).
AUC (Area Under Curve): Misura complessiva di accuratezza del modello. Un AUC vicino a 1 indica un modello eccellente, mentre un valore vicino a 0.5 indica una classificazione casuale.
To use this workflow in KNIME, download it from the below URL and open it in KNIME:
Download WorkflowDeploy, schedule, execute, and monitor your KNIME workflows locally, in the cloud or on-premises – with our brand new NodePit Runner.
Try NodePit Runner!Do you have feedback, questions, comments about NodePit, want to support this platform, or want your own nodes or workflows listed here as well? Do you think, the search results could be improved or something is missing? Then please get in touch! Alternatively, you can send us an email to mail@nodepit.com.
Please note that this is only about NodePit. We do not provide general support for KNIME — please use the KNIME forums instead.