Icon

Progetto base

<p><strong>1. Importazione dei Dati</strong></p><ul><li><p><strong>Excel Reader (CallsData.xls):</strong><br>Carica i dati sulle abitudini di chiamata dei clienti. Include variabili come:</p><ul><li><p>Minuti di chiamata (giorno, sera, notte, internazionali)</p></li><li><p>Costi delle chiamate</p></li><li><p>Numero di chiamate ai servizi clienti</p></li></ul></li><li><p><strong>CSV Reader (ContractData.csv):</strong><br>Carica i dati contrattuali dei clienti. Include informazioni come:</p><ul><li><p>Durata del contratto (<strong>Account Length</strong>)</p></li><li><p>Stato di residenza (<strong>State</strong>)</p></li><li><p>Partecipazione a piani internazionali e voicemail (<strong>Int'l Plan</strong>, <strong>VMail Plan</strong>)</p></li><li><p><strong>Churn</strong>: variabile target (0 = Non abbandona, 1 = Abbandona)</p></li></ul></li><li><p><strong>Table Reader (newtable_pro.table):</strong><br>Carica una nuova tabella di aggiornamento</p></li></ul><p><strong>2. Integrazione dei Dati</strong></p><ul><li><p><strong>Joiner:</strong><br>Unisce i dati di <strong>CallsData</strong> e <strong>ContractData</strong> sulla base di colonne comuni (<strong>Area Code</strong> e <strong>Phone</strong>), creando un dataset completo con tutte le informazioni sui clienti.</p></li><li><p><strong>Concatenate:</strong><br>Combina i dati ottenuti dal <strong>Joiner</strong> con quelli caricati direttamente dal <strong>Table Reader</strong>.</p></li></ul><p><strong>3. Preprocessing dei Dati</strong></p><ul><li><p><strong>Number to String:</strong><br>Converte colonne numeriche in stringhe, utile per gestire correttamente i dati.</p></li><li><p><strong>Color Manager:</strong><br>Assegna colori distintivi ai dati per facilitare l’analisi visiva. Con i clienti che hanno abbandonato (<strong>Churn = 1</strong>)con il colore rosso rispetto a quelli che non lo hanno fatto (<strong>Churn = 0</strong>) colore verde.</p></li><li><p><strong>Missing Value:</strong><br>Gestisce i valori mancanti nei dati garantendo che il modello non fallisca a causa di dati incompleti.</p></li></ul><p><strong>4. Suddivisione e Costruzione del Modello</strong></p><ul><li><p><strong>Partitioning:</strong><br>Divide il dataset in due parti:</p><p><strong>Training Set</strong> (per addestrare il modello)</p><p><strong>Test Set</strong> (per valutare le performance del modello)<br>Usato 80%-20%.</p><p><strong>Decision Tree Learner:</strong><br>Addestra un <strong>albero decisionale</strong> utilizzando il training set. Il modello impara a prevedere il <strong>churn</strong> sulla base dei pattern presenti nei dati.</p><p><strong>Decision Tree Predictor:</strong><br>Applica il modello addestrato al test set per effettuare previsioni. Le previsioni vengono confrontate con i valori reali di <strong>Churn</strong>.</p></li></ul><p><strong>5. Valutazione del Modello</strong></p><ul><li><p><strong>Scorer:</strong><br>Confronta le previsioni con i dati reali di <strong>Churn</strong>. Fornisce metriche di performance come:</p><ul><li><p><strong>Accuracy:</strong> Percentuale di previsioni corrette.</p></li><li><p><strong>Precision:</strong> Percentuale di clienti previsti come churner che lo sono realmente.</p></li><li><p><strong>Recall (Sensibilità):</strong> Percentuale di churner identificati correttamente.</p></li><li><p><strong>F1-Score:</strong> Media armonica tra precision e recall.</p></li></ul></li><li><p><strong>ROC Curve:</strong><br>Valuta la capacità predittiva del modello.</p><ul><li><p>L'asse <strong>X</strong> rappresenta la <strong>False Positive Rate</strong> (1 - Specificità).</p></li><li><p>L'asse <strong>Y</strong> rappresenta la <strong>True Positive Rate</strong> (Sensibilità).</p></li><li><p><strong>AUC (Area Under Curve):</strong> Misura complessiva di accuratezza del modello. Un AUC vicino a <strong>1</strong> indica un modello eccellente, mentre un valore vicino a <strong>0.5</strong> indica una classificazione casuale.</p></li></ul></li></ul><p></p>

1. Importazione dei Dati

  • Excel Reader (CallsData.xls):
    Carica i dati sulle abitudini di chiamata dei clienti. Include variabili come:

    • Minuti di chiamata (giorno, sera, notte, internazionali)

    • Costi delle chiamate

    • Numero di chiamate ai servizi clienti

  • CSV Reader (ContractData.csv):
    Carica i dati contrattuali dei clienti. Include informazioni come:

    • Durata del contratto (Account Length)

    • Stato di residenza (State)

    • Partecipazione a piani internazionali e voicemail (Int'l Plan, VMail Plan)

    • Churn: variabile target (0 = Non abbandona, 1 = Abbandona)

  • Table Reader (newtable_pro.table):
    Carica una nuova tabella di aggiornamento

2. Integrazione dei Dati

  • Joiner:
    Unisce i dati di CallsData e ContractData sulla base di colonne comuni (Area Code e Phone), creando un dataset completo con tutte le informazioni sui clienti.

  • Concatenate:
    Combina i dati ottenuti dal Joiner con quelli caricati direttamente dal Table Reader.

3. Preprocessing dei Dati

  • Number to String:
    Converte colonne numeriche in stringhe, utile per gestire correttamente i dati.

  • Color Manager:
    Assegna colori distintivi ai dati per facilitare l’analisi visiva. Con i clienti che hanno abbandonato (Churn = 1)con il colore rosso rispetto a quelli che non lo hanno fatto (Churn = 0) colore verde.

  • Missing Value:
    Gestisce i valori mancanti nei dati garantendo che il modello non fallisca a causa di dati incompleti.

4. Suddivisione e Costruzione del Modello

  • Partitioning:
    Divide il dataset in due parti:

    Training Set (per addestrare il modello)

    Test Set (per valutare le performance del modello)
    Usato 80%-20%.

    Decision Tree Learner:
    Addestra un albero decisionale utilizzando il training set. Il modello impara a prevedere il churn sulla base dei pattern presenti nei dati.

    Decision Tree Predictor:
    Applica il modello addestrato al test set per effettuare previsioni. Le previsioni vengono confrontate con i valori reali di Churn.

5. Valutazione del Modello

  • Scorer:
    Confronta le previsioni con i dati reali di Churn. Fornisce metriche di performance come:

    • Accuracy: Percentuale di previsioni corrette.

    • Precision: Percentuale di clienti previsti come churner che lo sono realmente.

    • Recall (Sensibilità): Percentuale di churner identificati correttamente.

    • F1-Score: Media armonica tra precision e recall.

  • ROC Curve:
    Valuta la capacità predittiva del modello.

    • L'asse X rappresenta la False Positive Rate (1 - Specificità).

    • L'asse Y rappresenta la True Positive Rate (Sensibilità).

    • AUC (Area Under Curve): Misura complessiva di accuratezza del modello. Un AUC vicino a 1 indica un modello eccellente, mentre un valore vicino a 0.5 indica una classificazione casuale.

Nodes

Extensions

Links