Icon

Projekt Bank1_​03

<p>EDA Prozess der 4 CSV Daten</p>

EDA Prozess der 4 CSV Daten

Datenimport

Die Datei „Bank-additional-full“ enthält für die Analyse nicht relevante Zusatzspalten, daher werden die „Bank-full“-Daten verwendet.

Datenanalyse & Aufbereitung

Datenmodell

Datenvisualisierung

  • Abschlussquoten nach Kontaktart (Mobil/Festnetz) vergleichbar dargestellt

  • Kunden mit < 3 Kontakten zeigen mindestens 10 % höhere Abschlussquote

  • Kontaktpause < 2 Tage erhöht Abschlussquote um mindestens 5 %

  • Mindestens eine konkrete Zielgruppe definiert

  • Klare Kampagnenempfehlung abgeleitet

  • Kunden in mindestens 2 Segmente unterteilt

Variablen & Datentypen identifizieren

EVALUATION

Entwicklung/ Vorhersage

Datenexport

Datenexport

Datentypen, Unkown und Missing values identifiziert
Data Explorer
Box-Plot
Ausreißer Visualisierung
Ausreißer bereinigen
Random Forest Predictor
Excel Datei : Entwicklung Festgeldkonto Bank
Excel Writer
Zur Klassifikationsvorhersage dient das Modell als einfache Baseline zum Vergleich mit komplexeren Modellen.
Naive Bayes Learner
die 3 Datenmodelle gegenüber gestellt
AUC-ROC
Für die Klassifizierung wurden die Werte der Spalte „Festgeldkonto“ in kategoriale Werte umgewandelt.
Rule Engine
bank full.csv
CSV Reader
Bar Chart
Häufigkeiten kategorischer Variablen
Monatliche Kontakt Abschlussanalyse
Random Forest Predictor
Model Reader
Numerisch vs Festgeldkonto
Klassifikation: Aufteilung der Daten 70% Training
Table Partitioner
Zur Klassifikationsvorhersage wird ein Ensemble aus mehreren Entscheidungsbäumen genutzt, um Genauigkeit und Stabilität zu erhöhen.
Random Forest Learner
Naive Bayes Predictor
Random Forest als Modell abspeichern
Model Writer
Visualisierung der Vorhersageverteilung für Einlagen mithilfe des Random-Forest-Modells.
Bar Chart
Decision Tree Predictor
Zur Klassifikationsvorhersage werden klare und nachvollziehbare Entscheidungsregeln sowie relevante Kundeneigenschaften analysiert und mit dem Random Forest verglichen.
Decision Tree Learner
CSV Writer
Spalten umbenannt
Column Renamer
Datentypen von String auf Numeric geändert sowie binäre Werte (housing, loan, y) von Text in True/False umgewandelt, um die Verarbeitungseffizienz zu verbessern.
Datentyp
Das durchschnittliche Jahreskonto enthält starke Ausreißer, die Kontaktdauer liegt teils über 80 Minuten und die Anzahl der Kundenkontakte erreicht in einzelnen Fällen über 250 Kontakte.
Statistics
Beziehung zwischen Variablen: Scatter
Lange Gespräche + hohes Guthaben = Abschluss
Das durchschnittliche Jahreskonto zeigt eine realistische Verteilung, während Ausreißer bei der Kontaktdauer auf 640,5, bei aktuellen Kontakten auf 20 und bei Vorkampagnenkontakten auf 50 begrenzt wurden.
Numeric Outliers
Data Explorer
Kategorien vs. Festgeldkonto
Die Verteilung der Festgeldkonto-Spalte ist unausgewogen (ca. 88 % „no“, 12 % „yes“). SMOTE erzeugt für die Minderheitsklasse künstliche „yes“-Datenpunkte zum Klassenausgleich.
SMOTE
Parameter Optimization Loop Start
88,75%
Scorer (JavaScript)
Behandlung unknown Data
Missing values
88,92%
Scorer (JavaScript)
90,67%
Scorer (JavaScript)
Visualisasi EDA kolom Kategorikal

Nodes

Extensions

Links