Icon

02_​Zahlungsverhalten_​IHK_​3.3

<p><strong>Phase A: Datenbeschaffung und Datenaufbereitung</strong></p><p><strong>Schritt 1: Datenimport und Validierung der Datentypen (Excel Reader)</strong></p><ul><li><p><strong>Aktivität:</strong>&nbsp;Einlesen der relationalen Rohdatensätze (Debitoren-Einzelposten, Kundenstammdaten, WKV-Limit, Teilnahme Factoring und Zahlungsbedinungen) in KNIME sowie die initiale Überprüfung der automatisch erkannten Tabellenstrukturen.</p></li><li><p><strong>Problemstellung &amp; Korrektur:</strong>&nbsp;Bei der Spalte der Debitorennummern führten führende Buchstaben (alphanumerische Präfixe) zu Fehlern bei der automatischen Typisierung. Um Datenverluste oder Fehlinterpretationen zu vermeiden, wurde die automatische Erkennung überschrieben und der Datentyp im&nbsp;Excel Reader&nbsp;manuell explizit als&nbsp;<strong>String&nbsp;(Text)</strong>&nbsp;definiert.</p></li><li><p><strong>Qualitätssicherung:</strong>&nbsp;Zur Gewährleistung einer fehlerfreien Folgeverarbeitung wurden alle zeitbezogenen Spalten (wie Fälligkeits- und Ausgleichsdatum) strikt als Datentyp&nbsp;<strong>Date&nbsp;(Datum)</strong>&nbsp;formatiert. Dies sichert die mathematische Validität für die anschließende Berechnung der Verzugstage über Datumsdifferenzen.</p></li></ul>

Phase A: Datenbeschaffung und Datenaufbereitung

Schritt 1: Datenimport und Validierung der Datentypen (Excel Reader)

  • Aktivität: Einlesen der relationalen Rohdatensätze (Debitoren-Einzelposten, Kundenstammdaten, WKV-Limit, Teilnahme Factoring und Zahlungsbedinungen) in KNIME sowie die initiale Überprüfung der automatisch erkannten Tabellenstrukturen.

  • Problemstellung & Korrektur: Bei der Spalte der Debitorennummern führten führende Buchstaben (alphanumerische Präfixe) zu Fehlern bei der automatischen Typisierung. Um Datenverluste oder Fehlinterpretationen zu vermeiden, wurde die automatische Erkennung überschrieben und der Datentyp im Excel Reader manuell explizit als String (Text) definiert.

  • Qualitätssicherung: Zur Gewährleistung einer fehlerfreien Folgeverarbeitung wurden alle zeitbezogenen Spalten (wie Fälligkeits- und Ausgleichsdatum) strikt als Datentyp Date (Datum) formatiert. Dies sichert die mathematische Validität für die anschließende Berechnung der Verzugstage über Datumsdifferenzen.

Phase A - Einlesen der Daten

Phase B - Datenqualität & Duplikatprüfung

Phase C - BS-Filter, Join Ausgleichsbeleg, Stammdaten (ETL)

Bereinigung der Daten / Vorbereitung der Zahlungsdaten




Phase D - Kennzahlengenerierung: Math Formula — Verzugstage & Zielvariable

Phase E - Deskriptive Auswertungen

Einbinden der weiteren Daten

Phase F - Treiber-Analyse

Phase B - Datenqualität & Duplikatprüfung

Quality Check 4 — Leakage-Prävention. Verzugstage, Verzugsklasse, Aging_Bucket und Mahnstufe wären „Spickzettel" für das Modell

Phase G - ML vorbereiten

Phase H + I — Modelle + Bewertung

Phase J — Stabilität / Kreuzvalidierung

erstes Problem: das Ergebnis ist höher als zu erwarten, da mehr Posten als Rechnungen lt. Joiner
Lösungswege:

  • Überprüfung mit Groupby -> mehr Posten im Ergebnis als Rechnungen -> es wären etwas weniger Posten als wie die Rechnungen zu erwarten, da einige Belege aufgrund von Storni und Gutschriften etc. rausfallen

  • weiteres Problem: verschiedene Ausgleichsdaten vorhanden -> die Daten sind weiterhin falsch, da nur die "echte" Zahlung Belegart ZK zur Analyse herangezogen werden dürfen sowie echte Rechnungen mit Belegart "RV"

Phase E - Deskriptive Auswertungen

Export für Power BI Mahnstufen-Verteilung
Excel Writer
Bezeichnung BS einbinden
Joiner
Rule Engine
Einzelposten
Excel Reader
Ergänzung Jahr + Monat
Date&Time Part Extractor
Entfernung Spalten für Modell
Column Filter
DSO über Belegmonat
Excel Writer
Buchungsschlüssel = number
String to Number
Table View
Ergänzung Jahr + Monat
Date&Time Part Extractor
Data Explorer
nur RV - Posten (Belegart Rechnung)
Row Filter
Table Partitioner
Erkenntnisgewinnung
Data Explorer
RowID
Decision Tree Learner
Ergebnis: ca. 78 T Posten -> plausibel, da mit einem ZE mehrere RG bezahlt werden
Joiner
Gesamtumsatz pro Debitor
Excel Writer
WKV vorhanden - ja/nein
Rule Engine
Entfernung von Zeilen mit fehlenden Werten
Missing Value
falsch!!!!
Missing Value
bei Teilzahlung: das letzte Datum = Zahlungsdatum das hier relevant ist
GroupBy
RowID
nur ZK Posten ("echte" Zahlung)
Row Filter
Duplikate erkennen
Duplicate Row Filter
Mahnsperre R ausschließen
Row Filter
relevante Daten für RisikoanalyseKunden im Zahlungsverzug & ohne WKV
GroupBy
Mahnsperre R ausschließen
Row Filter
VersSum
Missing Value
Rule Engine
Decision Tree Predictor
Random Forest Learner
Verzug in Tagen berechnet
Date&Time Difference
Scorer
pünktlich - ja/ nein
Rule Engine
ROC Curve
Random Forest Predictor
Ausgleichsbeleg - Ergebnis ist höher wie erwartet, da nicht mehr Posten als Rechnungen vorhanden sein können
Joiner
Scorer
Pivot
Verzug pro Land_Gruppe
GroupBy
X-Partitioner
Column Renamer
Visualisierung
Verzugsklasse
Rule Engine
Scorer
Ausreißer/ Negative / Max # prüfen
Data Explorer
ROC Curve
GroupBy
Mahnstufen -Verteilung
GroupBy
Date&Time Part Extractor
DSO über Belegmonat
GroupBy
Row Filter
Kundendaten
Excel Reader
X-Aggregator
GroupBy
Random Forest Learner
Random Forest Predictor
WKV-Limit einbinden
Joiner
WKV
Excel Reader
Debitor+Umsatz+Jahr
Excel Writer
Kundendaten einbinden
Joiner
Pivot
Duplikate erkennen
Duplicate Row Filter
Beleganzahl pro Ausgleichsbeleg
GroupBy
Duplikate Anzahl
GroupBy
Datenqualität & Duplikatprüfung
Metanode
Export für Power BI
Excel Writer
Export für Power BIVerzug nach Land+Umsatz
Excel Writer
Anzahl Ausgleichsbelege pro Debitor -> Ergebnis für Analyse irrelevant
Joiner
GroupBy
weitere Filterung ZE und RG Daten
Rule-based Row Filter
Spalte umbenennen
Column Renamer
Pivot - muss noch geprüft werden
Pivot
verschiedene Belegarten vorhanden - sollten nur RV und ZK sein
Data Explorer
Data Explorer
Export für Power BI Verzugsklassen nach Land
Excel Writer
GroupBy
Treiber-Analyse
Linear Correlation
Debitor+Umsatz
Excel Writer
muss in numerische Werte umwandeln
Rule Engine
GroupBy
BS in String umwandeln, um weitere Filterung zu ermöglichen
String Manipulation
inhaltliche Kennzeichnung offener Forderungen im Datensatz
Rule Engine
Zahlungsbedingungen - bereits in Kundendaten vorhanden - wird ignoriert
Excel Reader
Teilnahme Factoring
Excel Reader
Gesamtumsatz nach Jahr
Excel Writer
Zahlungsziel manuell berechnen
Date&Time Difference
Buchungsschlüssel - Bezeichnung
Excel Reader
Zahlungsbedingungen Beschreibung - bereits in Kundendaten vorhanden - wird ignoriert
Excel Reader
Risikoanalyse_Kunden ohne WKV
Excel Writer
GroupBy

Nodes

Extensions

Links