Icon

KNIME_​exam_​customer_​segmentation_​DBSCAN

Monetäre Segmentierung

Segmentierung nach Schokoladen-Kategorien

Segmentierung nach Kundenmerkmalen: Geografisch/Demografisch/Kundenstatus

Überprüfung lineare Korrelation zwischen den Merkmalen

Segmentierung nach Produkt-, Kauf- und Markeneigenschaften

Zeitbezogene Segmentierung

Übergreifende Segmentierung: Hypothesenbasiert

Datenintegration

Korrelationsanalyse

Verarbeitung des Korrelationsergebnisses:

Hochgradig korrelierende Merkmale (> 0,90) wurden identifiziert und gefiltert. Dies verhindert eine Übergewichtung redundanter Informationen bei der Distanzberechnung (DBSCAN/k-Means) und verbessert die Modellstabilität.

Kernprozess: Konsolidierung heterogener Datenquellen auf Transaktionsebene

Ziel dieses Teilprozesses: Schaffung eines Single Source of Truth für das Kundenverhalten.

Dabei wurden fünf verschiedene CSV-Quellen relational miteinander verknüpft. Über eine Kette von Joiner-Knoten wurden die Transaktionsdaten (Sales) sukzessive mit den Stammdaten der Kunden (Customers), den Produktspezifikationen (Products) und den Standortinformationen (Stores) angereichert.

Dabei mussten folgende Aspekte beachtet werden: (1) Zeitliche Harmonisierung: Mithilfe des String to Date&Time Knotens wurden textbasierte Datumsangaben in ein maschinenlesbares Format konvertiert. Dies ist die Voraussetzung für spätere zeitbasierte Merkmale. (2) Vollständigkeitsprüfung: Durch die Join-Operationen wurde sichergestellt, dass jede Verkaufstransaktion einem konkreten Kunden, einem Produkt und einer Filiale zugeordnet ist.

Zeitliche Eingrenzung

Harmonisierung des Zeitraums zur Schaffung einer konsistenten Datenbasis

Zeitraum: Oktober 2023 bis September 2024

Mittels des Date&Time-based Row Filter wurden alle Transaktionen außerhalb dieses 12-Monats-Fensters ausgeschlossen.

Warum dieser Schritt notwendig ist: (1) Vergleichbarkeit: Nur durch einen festen Zeitraum lassen sich Kennzahlen wie die „Bestellfrequenz“ oder der „Gesamtumsatz“ fair zwischen den Kunden vergleichen. (2) Saisonalität: Durch die Abdeckung eines vollen Jahreszyklus werden saisonale Effekte (z. B. Weihnachtsgeschäft oder Sommerloch) im Clustering-Modell angemessen berücksichtigt. (3) Datenqualität: Ausreißer oder Fragmente aus unvollständigen Randmonaten werden eliminiert, um die Genauigkeit der Segmentierung zu erhöhen.

Datenaggregation

Erstellung des zentralen "Flat Files"

Hebung der Daten­granularität von der Transaktions- zur Kundenebene (Customer Lifetime View)

Mithilfe des GroupBy-Knotens werden alle Informationen pro eindeutiger customer_id verdichtet, um die Basis für ein kundenindividuelles Clustering zu schaffen.

Durchgeführte Operationen:

Ökonomische Metriken: Transformation von Einzeltransaktionen in kundenbezogene Kennzahlen wie Gesamtumsatz (Sum), Rentabilität (Profit) und Warenkorbgröße (Mean).

Verhaltensdynamik: Extraktion zeitlicher Muster (Min/Max Order Date) und der Kauffrequenz, um die Aktivitätsspanne und Beständigkeit der Kundenbeziehungen messbar zu machen.

Präferenz-Profiling: Verdichtung von qualitativen Merkmalen (z. B. Store-Typ oder Stadt) mittels statistischer Modalwerte (Mode), um den typischen Interaktionspunkt des Kunden zu fixieren.

Stammdaten-Konsolidierung: Integration von demografischen Attributen (Alter, Geschlecht, Markenloyalität), um das Verhaltensprofil mit personenbezogenen Kontextinformationen anzureichern.

Monetäre Segmentierung - Vorgehen

1. Datenvorbereitung & Bereinigung

  • Column Filter (1 & 2): Reduzierung der Merkmale. Zuerst werden die für die Fragestellung relevanten monetären Merkmale isoliert. Der zweite Filter entfernt Variablen, die aufgrund der Korrelation >0.9 redundant und somit keinen analytischen Mehrwert für das Clustering bieten. Dies verhindert das „Rauschen“ im Algorithmus.

  • Column Renamer: Dient der Datenqualität. Spaltennamen werden vereinheitlicht oder verständlicher gestaltet, um die spätere Interpretation der Cluster und die Beschriftung von Grafiken zu erleichtern.

2. Vorverarbeitung für die Distanzberechnung

  • Normalizer (Min-Max-Normalisierung): Algorithmus basiert auf Distanzen, weshalb Merkmale mit großen Zahlenwerten (z. B. Umsatz in Tausend) Merkmale mit kleinen Werten (z. B. Anzahl Käufe) dominieren würden. Die Normalisierung bringt alle Werte auf eine Skala von 0 bis 1, sodass jedes Merkmal das gleiche Gewicht erhält.

  • Numeric Distances: Hier wird das mathematische Ähnlichkeitsmaß definiert. Es wird festgelegt, wie der „räumliche Abstand“ zwischen zwei Datenpunkten berechnet werden soll. Dies ist die notwendige Vorarbeit für die dichte-basierte Suche im nächsten Schritt.

3. Clustering-Prozess

  • DBSCAN: Dies ist der Kern-Algorithmus. Im Gegensatz zu k-Means sucht DBSCAN nach Gebieten mit hoher Punktdichte. Er hat zwei entscheidende Vorteile für deine Analyse: 1. Er erkennt Cluster von beliebiger Form. 2. Er identifiziert automatisch Outlier (Noise), also Datenpunkte, die in kein dichtes Zentrum passen.

4. Datenzusammenführung & Post-Processing

  • Joiner: Hier werden die Cluster-Ergebnisse (die Labels) wieder mit den Originaldaten (aus dem Pfad vor der Normalisierung) verknüpft. Das ist essenziell für die Interpretation, da man die Cluster-Eigenschaften in den echten Werten (Euro, Stückzahlen) und nicht in den normalisierten 0-1-Werten analysieren möchte.

  • Color Manager: Dieser Knoten dient der visuellen Differenzierung. Jedem gefundenen Cluster wird eine eindeutige Farbe zugewiesen. Dies ist die Voraussetzung für die anschließende grafische Auswertung, um Muster sofort mit dem Auge erfassbar zu machen.

5. Ergebnisanalyse & Interpretation

  • GroupBy: In diesem Schritt werden die Cluster-Profile erstellt. Durch Aggregation (z. B. Mittelwertbildung der monetären Merkmale pro Cluster) lässt sich beschreiben, was einen „Cluster 1“ von einem „Cluster 2“ unterscheidet (z. B. „Kunden mit hohem Umsatz aber geringer Kauffrequenz“).

  • Scatter Plot (Streudiagramm): Die grafische Endkontrolle. Hier werden Merkmale gegeneinander aufgetragen, um die räumliche Trennung der durch den Color Manager eingefärbten Cluster visuell zu validieren und die Dichte-Struktur zu bestätigen.

Monetäre Segmentierung - Ergebnis

Segmentierung nach Schokoladen-Kategorien - Ergebnis

Segmentierung nach Schokoladen-Kategorien - Vorgehen

1. Datenvorbereitung & Aggregation

  • GroupBy: In diesem ersten Schritt werden die Transaktionsdaten auf Basis der customer_id und der category (Schokoladensorte) gruppiert. Es wird die Summe des Umsatzes berechnet, um das Kaufvolumen pro Kunde und Sorte zu ermitteln.

  • Joiner: Hier werden die soeben aggregierten Verkaufsdaten mit den Kundenstammdaten verknüpft. Dies stellt sicher, dass jedem Umsatzdatensatz die korrekten Kundeninformationen zugeordnet sind.

  • Column Renamer: Aufgrund der Joiner-Operation müssen die Spalten zum Umsatz eindeutig benannt werden. Unterscheid Gesamtumsatz pro Kunde und Umsatz pro Kategorie pro Kunde.

2. Feature Engineering & Matrix-Erstellung

  • Math Formula: Berechnung der relativen Kaufanteile pro Schokoladenkategorie. Dies dient dazu, das Geschmacksprofil eines Kunden (z. B. 80 % Zartbitter-Anteil) unabhängig von seiner absoluten Kaufkraft darzustellen.

  • Pivot: Dies ist der entscheidende Schritt zur Erstellung der Datei für den DBSCAN-Knoten. Die Tabelle wird so aufgestellt, dass jeder Kunde genau eine Zeile erhält und die Schokoladenkategorien als einzelne Spalten dargestellt werden.

  • Column Renamer (Final): Bereinigung der durch das Pivoting entstandenen Spaltennamen für eine saubere technische Weiterverarbeitung.

  • Missing Value: Kategorien, die ein Kunde nie gekauft hat, weisen bisher einen fehlenden Wert auf. Diese werden durch „0“ ersetzt, damit der Algorithmus die Abwesenheit eines Interesses mathematisch verarbeiten kann

3. Vorverarbeitung für die Distanzberechnung

  • Normalizer (Min-Max-Normalisierung): Transformation aller Kategoriewerte auf eine Skala von 0 bis 1. Dies stellt sicher, dass Nischenkategorien mit geringeren Anteilen nicht durch absatzstarke Kategorien (wie Vollmilch) in der Berechnung unterdrückt werden.

  • Numeric Distances: Hier wird das mathematische Ähnlichkeitsmaß definiert. Es wird festgelegt, wie der „räumliche Abstand“ zwischen zwei Datenpunkten berechnet werden soll. Dies ist die notwendige Vorarbeit für die dichte-basierte Suche im nächsten Schritt.

4. Clustering-Prozess & Optimierung

  • DBSCAN: Der Kern-Algorithmus identifiziert Cluster als Gebiete mit hoher Punktdichte. Er gruppiert Kunden mit nahezu identischen Vorlieben und filtert untypische Käufer als „Noise“ aus.

5. Post-Processing, Ergebnisanalyse & Interpretation

  • Color Manager: Dieser Knoten dient der visuellen Differenzierung. Jedem gefundenen Cluster wird eine eindeutige Farbe zugewiesen. Dies ist die Voraussetzung für die anschließende grafische Auswertung, um Muster sofort mit dem Auge erfassbar zu machen.

  • Scatter Plot (Streudiagramm): Die grafische Endkontrolle. Hier werden Merkmale gegeneinander aufgetragen, um die räumliche Trennung der durch den Color Manager eingefärbten Cluster visuell zu validieren und die Dichte-Struktur zu bestätigen.

Segmentierung nach Kundenmerkmalen - Ergebnis

Segmentierung nach Kundenmerkmalen - Vorgehen

1. Datenvorbereitung und-bereinigung sowie Kodierung der Merkmale

  • Column Filter: Zunächst werden die für die Fragestellung relevanten soziodemografischen und geografischen Merkmale (z. B. Alter, Kundenstatus, Wohnort) isoliert.

  • Category to Number: Da Clustering-Algorithmen auf mathematischen Distanzen basieren, wird die Textkategorie "Gender" in numerische Werte (0/1) umgewandelt.

  • One to Many: Um kategoriale geografische Informationen wie "Store-Type" und "City" verarbeitbar zu machen, werden sie in binäre Spalten (Dummy-Variablen) transformiert. Dies verhindert eine künstliche Rangfolge zwischen den Städten.

  • Column Filter (Final): Verbleibende, nicht-numerische Textspalten werden ausgeschlossen, um die mathematische Integrität des Modells sicherzustellen.

  • Column Renamer: Eindeutige Benennung der neu entstandenen Dummy-Variablen zur besseren Interpretation der späteren Cluster-Profile.

2. Vorverarbeitung für die Distanzberechnung

  • Normalizer (Min-Max-Normalisierung): Alle Merkmale (z. B. Alter in Jahren vs. binäres Geschlecht) werden auf eine einheitliche Skala von 0 bis 1 gebracht. Dies stellt sicher, dass Merkmale mit größeren Zahlenwerten die Distanzberechnung nicht unverhältnismäßig dominieren.

  • Numeric Distances: Hier wird das mathematische Maß für die Ähnlichkeit definiert. Es legt fest, wie der „räumliche Abstand“ zwischen zwei Kundenprofilen im multidimensionalen Merkmalsraum berechnet wird (euklidischer Abstand).

3. Clustering-Prozess

  • DBSCAN: Der dichte-basierte Algorithmus identifiziert Gruppen von Kunden mit ähnlichen Merkmalskombinationen. Ein entscheidender Vorteil für diese Analyse ist die automatische Erkennung von Ausreißern (Noise), die keiner typischen demografischen Gruppe zugeordnet werden können.

4. Post-Processing, Ergebnisanalyse & Interpretation

  • Color Manager: Dieser Knoten dient der visuellen Differenzierung. Jedem gefundenen Cluster wird eine eindeutige Farbe zugewiesen. Dies ist die Voraussetzung für die anschließende grafische Auswertung, um Muster sofort mit dem Auge erfassbar zu machen

  • Scatter Plot (Streudiagramm): Die grafische Endkontrolle. Hier werden Merkmale gegeneinander aufgetragen, um die räumliche Trennung der durch den Color Manager eingefärbten Cluster visuell zu validieren und die Dichte-Struktur zu bestätigen.

Segmentierung nach Produkt-, Kauf- und Markeneigenschaften - Ergebnis

Segmentierung nach Kundenmerkmalen - Vorgehen

1. Datenvorbereitung & Bereinigung

  • Column Filter: In diesem ersten Schritt werden die spezifischen Merkmale bezüglich des Produkt-, Kauf- und Markenverhaltens der Kunden isoliert.

  • Column Filter (Korrelationsanalyse): Dieser nachgeschaltete Filter dient der Bereinigung redundanter Variablen. Auf Basis einer vorangegangenen Korrelationsanalyse werden stark korrelierende Merkmale gezielt entfernt (konkret: Sum profit und Mean profit, da Korrelation >0.9), um eine Überwichtung zu vermeiden.

2. Vorverarbeitung für die Distanzberechnung

  • Normalizer (Min-Max-Normalisierung): Die verbleibenden Merkmale werden auf eine einheitliche Skala von 0 bis 1 transformiert, damit Variablen mit großen Zahlenwerten die Distanzberechnung nicht dominieren.

  • Numeric Distances (Maß für Ähnlichkeit; räumlicher Abstand): Dieser Knoten definiert das mathematische Ähnlichkeitsmaß. Er berechnet den räumlichen, mehrdimensionalen Abstand zwischen den Kundenprofilen als fundamentale Basis für das dichte-basierte Clustering.

3. Hyperparameter-Optimierungsschleife (Start)

  • Parameter Optimization Loop Start: Initialisiert die automatisierte Optimierungsschleife. Hier werden die Suchbereiche für die Hyperparameter Epsilon (Nachbarschaftsradius) und MinPoints (Mindestanzahl an Punkten pro Cluster) festgelegt, um iterativ die beste Kombination zu testen.

4. Clustering-Prozess & Qualitätsprüfung

  • DBSCAN: Der eigentliche dichte-basierte Clustering-Algorithmus verarbeitet die Distanzmatrix unter den vom Loop übergebenen Parametern. Er gruppiert Kunden mit ähnlichen Verhaltensmustern in Cluster und filtert Ausreißer als Rauschen heraus.

  • Domain Calculator (Cluster-Werte für Silhouette-Koeffizient vorbereiten): Aktualisiert die Wertebereiche (die "Domain") der generierten Cluster-IDs, damit der nachfolgende Validierungsknoten die exakte Anzahl der Klassen fehlerfrei interpretieren kann.

  • Silhouette Coefficient (Silhouette-Koeffizient berechnen): Berechnet das mathematische Gütemaß des aktuellen Clustering-Durchlaufs. Es bestimmt die Kompaktheit innerhalb der Segmente und deren Trennschärfe zueinander.

5. Schleifensteuerung & Finalisierung

  • Table Column to Variable: Konvertiert die berechnete Metrik (den Silhouette-Score) aus der Ergebnistabelle in eine KNIME-Flow-Variable, damit diese als numerisches Steuersignal für die Schleife genutzt werden kann.

  • Parameter Optimization Loop End: Das Ende der Optimierungsschleife sammelt alle Testergebnisse, wertet die Zielfunktion aus und gibt schließlich die mathematisch beste Parameterkombination (Epsilon / MinPoints) aus.

Zeitbezogene Segmentierung - Ergebnis

Zeitbezogene Segmentierung - Vorgehen

1. Feature Engineering & Berechnung zeitlicher Metriken

  • Oberer Zweig (Aktualität / Recency): Der Knoten Date&Time Difference berechnet die exakte Zeitdauer vom letzten Kauf des Kunden bis zum definierten analytischen Fixpunkt (30.09.2024). Ein nachgeschalteter Column Renamer benennt diese Spalte prägnant in "Tage seit letztem Kauf".

  • Mittlerer Zweig (Kundenlebensdauer / Tenure): Ein weiterer Date&Time Difference-Knoten ermittelt die Zeitdifferenz zwischen dem allerersten und dem allerletzten aufgezeichneten Kauf eines Kunden, um die Aktivitätsspanne abzubilden.

  • Unterer Zweig (Saisonalität & Kaufmuster): Der Date&Time Part Extractor isoliert die reine Monatsnummer aus dem Bestelldatum. Anschließend aggregiert der GroupBy-Knoten diese Monatsnummer auf Kundenebene (z.B. Ermittlung des primären Kaufmonats oder der Verteilung), um saisonale Präferenzen zu sichern.

2. Datenkonsolidierung (Ketten-Join)

  • Joiner 1: Verknüpft die Aktualität ("Tage seit letztem Kauf") mit der berechneten Kundenlebensdauer.

  • Joiner 2: Reichert das Profil um die auf Monatsebene aggregierten Kennzahlen ("Nummer des Monats") des unteren Zweigs an.

  • Joiner 3 (Finale Konsolidierung): Führt alle zeitlichen Fragmente zu einem konsolidierten, zeitbezogenen Gesamtprofil pro Kunde zusammen. Anzahl Bestellungen wird hinzugenommen, um eine Aussage über die Frequenz treffen zu können.

3. Datenbereinigung & Harmonisierung

  • Column Renamer: Bereinigt die Tabellenstruktur nach den Koppelungsprozessen und stellt eindeutige, verständliche Spaltennamen für die nachfolgende mathematische Verarbeitung sicher.

  • Normalizer (Min-Max-Normalisierung): Da die Zeitmetriken stark unterschiedliche Skalierungen und Einheiten aufweisen (z. B. absolute Tage vs. extrahierte Monatsnummern von 1 bis 12), transformiert dieser Knoten alle Variablen auf einen identischen Wertebereich von 0 bis 1. Dies verhindert, dass weite Zeitspannen kleinere Zyklen in ihrer Gewichtung unterdrücken.

4. Konfiguration des Ähnlichkeitsmaßes

  • Numeric Distances (Maß für Ähnlichkeit; räumlicher Abstand): Definiert das euklidische Distanzmaß für den zeitlichen Merkmalsraum. Es legt fest, wie der mathematische Abstand zwischen den zeitlichen Verhaltensmustern zweier Kunden berechnet wird.

5. Clustering-Prozess

  • DBSCAN (Dichte-basierter Clustering-Algorithmus für Kundenmerkmale): Der finale Algorithmus sucht im normalisierten Zeit-Raum nach Regionen mit hoher Punktdichte, um Kunden mit ähnlichen zeitlichen Kaufrhythmen (z. B. "treue Langzeit-Saisonkäufer" vs. "aktuelle Einmalkäufer") zu Clustern zusammenzufassen. Ausreißer im Zeitverhalten werden automatisch als Rauschen (Noise) isoliert.

6. Post-Processing, Ergebnisanalyse & Interpretation

  • Color Manager: Dieser Knoten dient der visuellen Differenzierung. Jedem gefundenen Cluster wird eine eindeutige Farbe zugewiesen. Dies ist die Voraussetzung für die anschließende grafische Auswertung, um Muster sofort mit dem Auge erfassbar zu machen

  • Scatter Plot (Streudiagramm): Die grafische Endkontrolle. Hier werden Merkmale gegeneinander aufgetragen, um die räumliche Trennung der durch den Color Manager eingefärbten Cluster visuell zu validieren und die Dichte-Struktur zu bestätigen.

Übergreifende Segmentierung: Hypothesenbasiert - Ergebnis

Übergreifende Segmentierung: Hypothesenbasiert - Vorgehen (DBSCAN und kmeans)

1. Datenvorbereitung & Merkmalsauswahl

  • Column Filter (Filter auf relevante Spalten zur Segmentierung): Im ersten Schritt werden die spezifischen, theorie- bzw. hypothesengeleiteten Kundenmerkmale isoliert, um den Fokus der übergreifenden Analyse zu definieren.

  • Column Renamer (Umbenennung Spalten): Systematische Bereinigung und Standardisierung der Spaltenbezeichnungen, um eindeutige Spalten herzustellen

  • Joiner (Anreichern Daten um Umsatzanteil pro Kategorie): Hier werden die gefilterten Basisdaten mit den berechneten Umsatzanteilen aus den Produktkategorien verknüpft. Diese Fusion führt unterschiedliche Dimensionen (z. B. Verhalten und Umsatzstruktur) zu einem ganzheitlichen Profil zusammen.

2. Vorverarbeitung für die Distanzberechnung

  • Normalizer (Min-Max-Normalisierung): Da die zusammengeführten Merkmale aus unterschiedlichen Wertebereichen stammen, werden alle Variablen auf eine einheitliche Skala von 0 bis 1 transformiert. Dies garantiert, dass kein Merkmal aufgrund seiner rein numerischen Größe die Segmentierung dominiert.

  • Numeric Distances (Maß für Ähnlichkeit; räumlicher Abstand): Berechnet die euklidische Distanzmatrix auf Basis der normalisierten Daten. Dieser Schritt liefert die zwingend erforderliche mathematische Grundlage für das dichte-basierte Verfahren.

3. Clustering-Prozess

Pfad A: Partitionierendes Verfahren

  • k-Means (Partitionierender Clustering-Algorithmus zur Segmentierung): Gruppiert die Kunden basierend auf Distanzen zu berechneten Cluster-Zentren (Schwerpunkten) in eine vordefinierte Anzahl an Segmenten (k).

  • Color Manager (Farbmarkierung der Cluster zur Darstellung): Weist den generierten k-Mean-Klassen eindeutige Farbprofile zu.

  • Scatter Plot Matrix (Visuelle Endkontrolle und Validierung der Clustertrennung): Dient der grafischen Überprüfung, wie trennscharf und kompakt die Segmente im multidimensionalen Raum durch k-Means geformt wurden.

Pfad B: Dichte-basiertes Verfahren

  • DBSCAN (Dichte-basierter Clustering-Algorithmus): Durchsucht den Merkmalsraum nach dicht besiedelten Regionen. Er bestimmt die Anzahl der Cluster eigenständig und identifiziert untypische Kundenprofile flexibel als Rauschen (Noise).

  • Color Manager (Farbmarkierung der Cluster zur Darstellung): Weist den dichte-basierten Clustern eine kontrastierende Farbpalette für die visuelle Unterscheidung zu.

  • Scatter Plot Matrix (Visuelle Endkontrolle und Validierung der Clustertrennung): Dient der grafischen Überprüfung, wie trennscharf und kompakt die Segmente im multidimensionalen Raum durch DBSCAN geformt wurden.

4. Datenzusammenführung & Post-Processing (für DBSCAN)

  • Joiner (Join: Originaldaten mit normalisierten, geclusterten Daten): Verknüpft die vom DBSCAN-Algorithmus vergebenen Cluster-Labels wieder mit den unskalierten, betriebswirtschaftlich interpretierbaren Originalwerten (Euro-Umsätze, reale Stückzahlen).

  • GroupBy (Aggregierte Kennzahlen pro Cluster): Bildet statistische Kennzahlen (z. B. Mittelwerte, Mediane) der Kundeneigenschaften pro zugewiesenem Segment. Dieser Schritt überführt die rein mathematischen Cluster in interpretierbare Kundenprofile für die finale Hypothesenprüfung.

  • Column Renamer (Umbenennung Spalten): Eindeutige Spaltenbezeichnung zur besseren Interpretation

Datensplit in Trainings- und Testdaten?

Beispielhafter Prozess zur Aufteilung der Daten in Trainings- und Testdaten

Verzicht auf eine Partitionierung in Trainings- und Testdaten im Workflow

Es wird bewusst auf eine klassische Aufteilung des Datensatzes in Trainings- und Testdaten (Data Splitting) verzichtet.

Begründung:

  • Unüberwachtes Lernen ohne Zielvariable (Unsupervised Learning): Der eingesetzte DBSCAN-Algorithmus gehört zur Klasse der unüberwachten Lernverfahren. Da keine bekannte Zielvariable (Label oder Ground Truth) existiert, muss das Modell nicht auf unbekannten Daten gegen Overfitting abgesichert werden. Das Ziel ist kein zukunftsgerichtetes Vorhersagemodell, sondern das rein explorative Offenlegen der inhärenten Strukturen des aktuell vorliegenden Datenraums.

  • Kritische Limitation der Stichprobengröße: Das vorliegende Datenset weist einen stark begrenzten Umfang auf. Eine künstliche Reduzierung der Datenbasis (z. B. im 80/20-Verhältnis) würde die Punktdichte im multidimensionalen Raum drastisch verringern. Da DBSCAN Cluster über die Dichte innerhalb eines Radius definiert, führt eine zu kleine Datenmenge dazu, dass zusammenhängende Segmente künstlich zerrissen und relevante Kundenprofile fälschlicherweise als Rauschen (Noise) deklariert werden.

Datenaufbereitung?

Vor dem Aufbau des Clustering-Workflows muss eine Datenaufbereitung bzw. Datenqualitätskontrolle durchgeführt.

Vorgehen:

(1) Einlesen und Strukturieren der CSV-Rohdaten: > Die Quelldaten lagen im Dateiformat CSV (Comma-Separated Values) vor. Da die verschiedenen Datensätze uneinheitliche Trennzeichen aufwiesen, musste der Parameter für das Trennzeichen (Column Delimiter) in den jeweiligen Einleseknoten manuell konfiguriert und flexibel angepasst werden (Komma oder Semikolon). Diese exakte Abstimmung war zwingend erforderlich, um die unstrukturierten Textdateien fehlerfrei in eine strukturierte, relationale Tabellenform zu überführen.

(2) Prüfung der Datenqualität: Die eingelesenen Rohdaten (Transaktionen, Kunden, Produkte, Filialen, Kalender) wurden mittels dem Tabellenreiter "explorative Statistik" auf fehlende Werte (Missing Values), Duplikate und logische Konsistenz (z. B. korrekte Datumsformate) untersucht und im nächsten Schritt über entsprechende Knoten angepasst.

(3)

Übergreifende Segmentierung: Hypothesenbasiert - Ergebnis

Nur zur Dokumentation - keine valide Segmentierung

Mögliche Hypothesen:

H1: Produktdiversität erhöht den Kundenumsatz.

Kunden, die eine höhere Produkt- und Markenvielfalt in ihrem Warenkorb aufweisen, generieren einen signifikant höheren Gesamtumsatz als Kunden mit geringer Produkt- und Markenvielfalt.

Begründung aus den Clustern:

  • Cluster 2 und 4: hohe Produktanzahl (~39), viele Marken (~6), hoher Umsatz (~336–337)

  • Cluster 0 und 1: niedrigere Produktanzahl (~26–29), weniger Marken (~4), niedriger Umsatz (~224)

H2: Clusterbezogene Hypothese

Der Kundenumsatz wird signifikant durch die Anzahl gekaufter Produkte, die gewährten Rabatte sowie die Präferenz bestimmter Schokoladensorten beeinflusst, wobei Kunden mit höherer Produktanzahl, höherer Markenvielfalt und spezifischen Produktpräferenzen (z. B. Praline-, Trüffel- oder Premiumprodukte) höhere Umsätze erzielen.

Inhaltliche Erwartung: Kunden mit höherem Umsatz kaufen tendenziell mehr Produkte, weisen eine höhere Markenvielfalt auf und zeigen stärkere Präferenzen für bestimmte Schokoladensorten, während Rabatte nur einen geringen Einfluss auf den Umsatz haben.

Produktanzahl und Umsatz:

Cluster_2 und Cluster_4: Höchste durchschnittliche Umsätze (Umsatz ≈ 337, Produktanzahl ≈ 39–40)

Cluster_0 und Cluster_1: Geringerer Umsatz und geringere Produktanzahl (Umsatz ≈ 224, Produktanzahl ≈ 26–29)

Markenvielfalt und Umsatz: Umsatzstarke Cluster mit großer Markenvielfalt

Cluster_2 und Cluster_4: etwa 6 Marken

Cluster_0 und Cluster_1: etwa 4 Marken

Rabattstruktur

Die Rabatte unterscheiden sich nur gering (Cluster_0: 0.062, Cluster_2: 0.054, Cluster_4: 0.055)

Schlussfolgerung: Rabatte haben einen geringeren Einfluss auf den Umsatz als andere Variablen.

Präferenz für Schokoladensorten: Kundensegmente mit unterschiedlichen Präferenzen für Schokoladensorten unterscheiden sich signifikant hinsichtlich ihres Umsatzes und ihrer Kaufintensität.

Praline: Anteil ~0,20-0,22, in allen Clustern mit höchstem Anteil, Kernprodukt ohne trennscharfe Wirkung zwischen Segmenten

Truffle: Anteil schwankt stark, Cluster_0: sehr niedrig (~0.035), Cluster_1: deutlich höher (~0.213)

Dark: Cluster_1 mit geringstem Anteil

Milk: Generell niedriger Anteil, wenig Trennschärfe

White: Stabiler Anteil über alle Cluster hinweg, wenig Trennschärfe

Zusammenführung von klassifizierten Trainings- und Testdaten zur Gesamtevaluation
Concatenate
Farbmarkierung der Cluster zur Darstellung
Color Manager
Umbenennung Spalten
Column Renamer
Scatter Plot Matrix
Umbenennung Spalten
Column Renamer
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Farbmarkierung der Cluster zur Darstellung
Color Manager
Filter Umsatz und Anzahl Produkte
Column Filter
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Farbmarkierung der Cluster zur Darstellung
Color Manager
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Farbmarkierung der Cluster zur Darstellung
Color Manager
Column Renamer
Datenquelle CSV-Datei "Calendar"
CSV Reader
Datenquelle CSV-Datei "Customers_new"
CSV Reader
Datenquelle CSV-Datei "Products"
CSV Reader
Datenquelle CSV-Datei "Sales_new"
CSV Reader
Datenquelle CSV-Datei "Stores"
CSV Reader
Kundeninformationenhinzufügen
Joiner
Produktdetails ergänzen
Joiner
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Min-Max-Normalisierung
Normalizer
Join: Originaldaten mit normalisierten, geclusterten Daten
Joiner
Aggregierte Kennzahlen pro Cluster
GroupBy
Textkategorie "Gender" als Zahl
Category to Number
Filter Kundenmerkmale
Column Filter
Dichte-basierter Clustering-Algorithmus für monetäre Merkmale
DBSCAN
Verbleibende Textspalten ausschließen
Column Filter
Farbmarkierung der Cluster zur Darstellung
Color Manager
Textkategorien "Store-Type" und "City" als Zahl
One to Many
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Min-Max-Normalisierung
Normalizer
Dichte-basierter Clustering-Algorithmus für Kundenmerkmale
DBSCAN
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Filialdaten verknüpfen
Joiner
Linear Correlation
Textbasiertes Datum in Datum-Format konvertieren
String to Date&Time
Normalisierungsmodell auf die Testdaten anwenden
Normalizer (Apply)
Split der Daten in 80% Trainingsdaten und 20% Testdaten
Table Partitioner
Filter "Correlation value" >0.90
Rule-based Row Splitter
Farbmarkierung der Cluster zur Darstellung
Color Manager
Korrelationsanalyse: 1. Mean profit entfernt, 2. Sum profit entfernt, 3. Sum quantity entfernt4. Count order_date entfernt
Column Filter
Zuordnung der Testdaten zu den bestehenden Trainings-Clustern via Distanzvergleich
Similarity Search
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot
Korrelationsanalyse: 1. Sum profit entfernt, 2. Mean profit entfernt
Column Filter
Filter Produkt-, Kauf- und Markeneigenschaften
Column Filter
Min-Max-Normalisierung
Normalizer
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Dichte-basierter Clustering-Algorithmus für Produkt-, Kauf- und Markeneigenschaften
DBSCAN
Ende der Optimierungsschleife - Ausgabe der besten Parameterkombination (Epsilon / MinPoints)
Parameter Optimization Loop End
Start der Schleife zur Hyperparameter-Optimierung (Epsilon / MinPoints)
Parameter Optimization Loop Start
Silhouette-Koeffizient berechnen (Güte des Clusterings bestimmen)
Silhouette Coefficient
Metrik (Silhouette-Score) in Variable konvertieren für die Schleifensteuerung
Table Column to Variable
Zeitdauer zum letzten Kauf - Ausgangspunkt 30.09.2024
Date&Time Difference
Anreichern Daten um Umsatzanteil pro Kategorie
Joiner
Filter auf relevante Spalten zur Segmentierung
Column Filter
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Min-Max-Normalisierung
Normalizer
Partitionierender Clustering-Algorithmus zur Segmentierung
k-Means
Dichte-basierter Clustering-Algorithmus
DBSCAN
Farbmarkierung der Cluster zur Darstellung.
Color Manager
Farbmarkierung der Cluster zur Darstellung.
Color Manager
Join: Originaldaten mit normalisierten, geclusterten Daten
Joiner
Visuelle Endkontrolle und Validierung der Clustertrennung
Scatter Plot Matrix
Filter monetäre Merkmale
Column Filter
Aggregierte Kennzahlen pro Cluster
GroupBy
Min-Max-Normalisierung
Normalizer
Aggregierte Flat File auf Kundenebene (Group by: customer_id)
GroupBy
Extraktion von Monatsnummer von Bestelldatum
Date&Time Part Extractor
Bestelldatum: Oktober 2023 - September 2024
Date&Time-based Row Filter
Umbenennen "Tage seit letztem Kauf"
Column Renamer
Aggregation Monatsnummer auf Kundenebene
GroupBy
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Dichte-basierter Clustering-Algorithmus für monetäre Merkmale
DBSCAN
Zeitdifferenz zwischen erstem und letztem Kauf
Date&Time Difference
Zusammenführen "Tage seit letzter Kauf" und "Kundenlebensdauer"
Joiner
Aggregration der Verkaufsdaten auf Kunden- und Kategorieebene
GroupBy
Umbenennung Umsatzspalten aufgrund Uneindeutigkeit durch Joiner
Column Renamer
Kundenbasierte Matrix mit Schokoladenkategorien
Pivot
Zusammenführen Kundendaten mit aggregierten Verkaufsdaten
Joiner
Berechnung relative Kaufanteil pro Schokoladen-kategorie
Math Formula
Min-Max-Normalisierung
Normalizer
Textbasiertes Datum in Datum-Format konvertieren
String to Date&Time
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Anreicherung um Kennzahlen auf Monatsebene
Joiner
Umbenennung Spalten
Column Renamer
Ersetzen fehlende Werte durch Nullen für nicht gekaufte Kategorien
Missing Value
Finale Konsolidierung zeitbezogene Kundenmerkmale
Joiner
Maß für Ähnlichkeit; räumlicher Abstand
Numeric Distances
Min-Max-Normalisierung
Normalizer
Transaktionsdaten finalisieren
Joiner
Dichte-basierter Clustering-Algorithmus für Schokoladenkategorien
DBSCAN
Umbenennung Spalten
Column Renamer
Dichte-basierter Clustering-Algorithmus für zeitliche Segmentierung
DBSCAN
Cluster-Werte für Silhouette-Koeffizient vorbereiten
Domain Calculator
Umbenennung Spalten
Column Renamer

Nodes

Extensions

Links