Icon

Projekt Bank11

<p>EDA Prozess der 4 CSV Daten</p>

EDA Prozess der 4 CSV Daten

Datenimport

Bank additional Full hat für uns nicht relevante zusätzliche Spalten. Für die Analyse ziehen wir die Bank-full Daten heran

Variablen & Datentypen identifizieren

Datenanalyse & Aufbereitung

Datenvisualisierung

Datenmodell

EVALUATION

Datenexport

Entwicklung/ Vorhersage

Datenexport

Datentypen, Unkown und Missing values identifiziert
Data Explorer
min number of Records gewählt da Einfluss auf Overfitting, Baumgröße
Parameter Optimization Loop Start
Box-Plot
Ausreißer Visualisierung
Scorer
Parameter Optimization Loop End
Random Forest
ROC Curve
Decision Tree
ROC Curve
Ausreißer bereinigen
Random Forest Predictor
Naive Bayes
ROC Curve
Excel Datei : Entwicklung Festgeldkonto Bank
Excel Writer
Scorer
Zur Klassifikationsvorhersage dient das Modell als einfache Baseline zum Vergleich mit komplexeren Modellen. Aufgrund geringer Anzahl relevanter Parameter keine umfangreiche Optimierung durchgeführt
Naive Bayes Learner
Für die Klassifizierung wurden die Werte der Spalte „Festgeldkonto“ in kategoriale Werte umgewandelt.
Rule Engine
bank full.csv
CSV Reader
Bar Chart
Häufigkeiten kategorischer Variablen
Monatliche Kontakt Abschlussanalyse
Random Forest Predictor
Numerisch vs Festgeldkonto
Klassifikation: Aufteilung der Daten 70% Training
Table Partitioner
Zur Klassifikationsvorhersage wird ein Ensemble aus mehreren Entscheidungsbäumen genutzt, um Genauigkeit und Stabilität zu erhöhen.
Random Forest Learner
Naive Bayes Predictor
Random Forest als Modell abspeichern
Model Writer
Visualisierung der Vorhersageverteilung für Einlagen mithilfe des Random-Forest-Modells.
Bar Chart
Decision Tree Predictor
Zur Klassifikationsvorhersage werden klare und nachvollziehbare Entscheidungsregeln sowie relevante Kundeneigenschaften analysiert und mit dem Random Forest verglichen.
Decision Tree Learner
Excel Datei: Entwicklung Festgeldkonto Bank CSV
CSV Writer
Spalten umbenannt
Column Renamer
Datentypen von String auf Numeric geändert sowie binäre Werte (housing, loan, y) von Text in True/False umgewandelt, um die Verarbeitungseffizienz zu verbessern.
Datentyp
Das durchschnittliche Jahreskonto enthält starke Ausreißer, die Kontaktdauer liegt teils über 80 Minuten und die Anzahl der Kundenkontakte erreicht in einzelnen Fällen über 250 Kontakte.
Statistics
Beziehung zwischen Variablen: Scatter
Lange Gespräche + hohes Guthaben = Abschluss
Das durchschnittliche Jahreskonto zeigt eine realistische Verteilung, während Ausreißer bei der Kontaktdauer auf 640,5, bei aktuellen Kontakten auf 20 und bei Vorkampagnenkontakten auf 50 begrenzt wurden.
Numeric Outliers
Data Explorer
Kategorien vs. Festgeldkonto
Die Verteilung der Festgeldkonto-Spalte ist unausgewogen (ca. 88 % „no“, 12 % „yes“). SMOTE erzeugt für die Minderheitsklasse künstliche „yes“-Datenpunkte zum Klassenausgleich.
SMOTE
Parameter Optimization Loop End
num_Trees max depth und min node size gwählt
Parameter Optimization Loop Start
Scorer
Behandlung unknown Data
Missing values
CSV Datei Bank-full (ohne Model)
CSV Writer
Random Forest Model
Model Reader
Gesamtübersicht

Nodes

Extensions

Links