Icon

Timon Hoffmann Big Data

Workflow 1 – Gesamtübersicht Vertriebskanäle

Fragestellung: Über welchen Vertriebskanal kaufen Kunden insgesamt am häufigsten (Store / Web / Katalog)? 

Vorgehen: Die drei Kaufvariablen (NumStorePurchases, NumWebPurchases, NumCatalogPurchases) werden bereinigt (fehlende Werte → 0), anschließend per GroupBy (Sum) über alle Kunden aufsummiert. Mit Unpivot wird das Ergebnis in ein chartfähiges Format gebracht und per Rule Engine werden verständliche Kanalnamen erzeugt. 

Ergebnis (Interpretation): Der Store ist der stärkste Kanal, Web folgt, Katalog ist deutlich schwächer. Daraus ergibt sich: Maßnahmen mit Umsatz-/Frequenzwirkung sollten primär Store-orientiert gedacht werden, während Web als zweitwichtigster Hebel für Wachstum/Convenience dient; der Katalog bleibt ein Nischenkanal.

Workflow 2 – Welche Kundentypen nutzen welchen Kanal?

Fragestellung: Welche Kundensegmente bevorzugen welchen Kanal? (Segmentierung nach Alter und Kinderstatus.) 

Vorgehen: Aus Age werden Altersgruppen gebildet (Binning). Aus Kidhome + Teenhome wird der Kinderstatus abgeleitet (NoKids / 1Kind / 2+Kinder). Beides wird zu CustomerType kombiniert (z. B. 30-44_NoKids). Pro Kunde wird anschließend der PrimaryChannel bestimmt (Kanal mit den meisten Käufen). Mit Pivot (Count) wird gezählt, wie sich PrimaryChannel über CustomerType verteilt; anschließend werden Anteile berechnet (Prozentwerte), um Segmente trotz unterschiedlicher Größe vergleichbar zu machen. 

Ergebnis (Interpretation): Über nahezu alle Kundentypen dominiert der Store. Web zeigt segmentabhängige Unterschiede (bei manchen Typen deutlich stärker), während Katalog insgesamt gering bleibt und nur in einzelnen Segmenten sichtbarer wird. Praktische Konsequenz: Kanalstrategien sollten pro Segment differenzieren (z. B. Web-Aktivierung dort, wo der Anteil bereits höher ist), während Store als Basiskanal für Reichweite/Volumen gesetzt bleibt.

Workflow 3 – Clusteranalyse: Kundentypen nach Ausgabeverhalten

Fragestellung: Welche datengetriebenen Kundengruppen entstehen, wenn man Kauf- und Ausgabeverhalten gemeinsam betrachtet? 

Vorgehen: Es werden relevante Merkmale ausgewählt: Einkommen/Alter (Income, Age), Ausgaben nach Produktkategorien (MntWines, MntMeatProducts, MntFruits, MntFishProducts, MntSweetProducts, MntGoldProds) sowie Kanalintensitäten (NumStorePurchases, NumCatalogPurchases, NumWebPurchases). Vor dem Clustering werden fehlende Werte bereinigt und alle Merkmale per Min-Max Normalizer (0–1) skaliert, damit k-Means nicht von einzelnen großen Skalen dominiert wird. k-Means (k=4, fester Seed) erzeugt reproduzierbare Cluster; der Parallel Coordinates Plot visualisiert die Clusterprofile über alle Variablen. 

Ergebnis (Interpretation): Die Cluster zeigen klar unterscheidbare Profile (z. B. „High-Spend/High-Frequency“ vs. „Low-Activity“, teils mit spezifischen Ausgaben-Schwerpunkten). Das ist besonders nützlich für Marketing: Kampagnen lassen sich nach Clusterprofil gezielt aussteuern (z. B. Premium-Bindung bei High-Value, Aktivierung/Angebote bei Low-Activity), statt nur nach Demografie zu segmentieren.

Ich habe mich zunächst auf eine statistische Auswertung eingestellt, um das Kaufverhalten messbar und vergleichbar zu machen (Summen und Anteile je Kanal). Im Verlauf der Arbeit hat sich der Fokus dann stärker in Richtung deskriptiver Auswertung und Segmentierung verschoben: Zuerst wurden die Kanäle insgesamt verglichen, anschließend wurde mit einer Segmentanalyse geprüft, welche Kundentypen unterschiedliche Kanäle nutzen (z. B. nach Alter und Kinderstatus). Ergänzend wurde eine Clusteranalyse (k-Means) eingesetzt, um datengetriebene Kundengruppen anhand von Ausgaben- und Kaufmustern zu identifizieren und daraus konkrete Ansatzpunkte für Marketingmaßnahmen abzuleiten

CSV Reader

Was: Liest die CSV-Datei ein und erzeugt eine KNIME-Tabelle als Datengrundlage.

Warum: Damit die Rohdaten überhaupt in KNIME verfügbar sind und alle folgenden Schritte darauf arbeiten können.

Missing Value

Was: Ersetzt fehlende Werte (z. B. numerisch → 0), damit Berechnungen, Regeln und Modelle stabil laufen.

Warum: Damit fehlende Zahlenwerte Summen/Anteile nicht verfälschen und Nodes wie Pivot, Formeln oder k-Means nicht wegen Missing Values scheitern.

Column Filter

Was: Reduziert die Tabelle auf die relevanten Spalten, um den Workflow übersichtlich, schneller und weniger fehleranfällig zu halten.

Warum: Damit nur die wirklich benötigten Spalten weitergegeben werden (weniger Komplexität, weniger Fehlerquellen, schnellere Ausführung).

GroupBy

Was: Aggregiert Werte zu Kennzahlen (z. B. Sum, Mean, Count) – entweder über alle Zeilen oder je Gruppe (z. B. Cluster).

Warum: Damit aus Einzeldaten verständliche Kennzahlen werden – z. B. Gesamtsummen je Kanal (Workflow 1) oder Durchschnittsprofile je Cluster (Workflow 3).

Unpivot

Was: Wandelt ein breites Tabellenformat (mehrere Spalten) in ein langes Format (Kategorie/Wert in Zeilen) für Visualisierung um.

Warum: Damit Ergebnisse „chartfähig“ werden: Diagramme lassen sich leichter bauen, wenn eine Kategorie-Spalte und eine Wert-Spalte vorliegen statt mehrere Wertspalten.

Rule Engine

Was: Erzeugt neue Variablen oder Labels über Wenn-Dann-Regeln (z. B. PrimaryChannel, FamilyStatus, Kanalnamen).

Warum: Damit du aus vorhandenen Variablen klare Kategorien ableitest (z. B. PrimaryChannel, FamilyStatus) und technische Namen in verständliche Labels übersetzt.

Bar Chart

Was: Visualisiert Werte als Balkendiagramm, um Unterschiede zwischen Kanälen/Segmenten schnell sichtbar zu machen.

Warum: Damit die Ergebnisse schnell verständlich sind und man den Unterschied zwischen Kanälen/Segmenten visuell zeigen kann.

Numeric Binner

Was: Teilt numerische Werte (z. B. Alter) in Kategorien/Intervalle ein, damit Segmentvergleiche möglich werden.

Warum: Damit Alter nicht als viele Einzelwerte, sondern als wenige sinnvolle Gruppen verglichen werden kann (Segmentierung wird dadurch erst praktikabel).

Column Combiner

Was: Kombiniert mehrere Spalten zu einem Segment-Label (z. B. AgeGroup + FamilyStatus → CustomerType).

Warum: Damit man ein eindeutiges Segment-Label pro Kunde hat (CustomerType), dmacht sauber zählen/analysieren möglich.

Pivot

Was: Erstellt eine Kreuztabelle, um Häufigkeiten/Counts nach Segment (Zeilen) und Kanal (Spalten) darzustellen.

Warum: Damit man eine klare Übersicht bekommt, wie sich Kanäle über Kundentypen verteilen (Kreuztabelle: Kundentyp × PrimaryChannel).

Column Aggregator

Was: Bildet zeilenweise eine Gesamtsumme über mehrere Spalten (z. B. Total = Store + Web + Katalog) als Basis für Anteile.

Warum: Damit man pro Kundentyp die Gesamtanzahl (Total) hat – nur damit kann man danach Anteile/Prozente korrekt berechnen.

Math Formula (Multi Column)

Was: Berechnet dieselbe Formel für mehrere Spalten gleichzeitig (z. B. Anteil je Kanal = Kanal / Total).

Warum: Damit dman Kanalanteile (Store/Web/Katalog) effizient und konsistent für mehrere Spalten berechnen kann, statt jede Formel einzeln zu bauen.

Normalizer

Was: Skaliert alle numerischen Features auf eine gemeinsame Skala (0–1), damit Distanzverfahren fair vergleichen.

Warum: Damit k-Means fair arbeitet: Ohne Skalierung würden Variablen mit großen Wertebereichen (z. B. Income) das Clustering dominieren.

k-Means

Was: Bildet datengetriebene Kundengruppen (Cluster) anhand ähnlicher Merkmalsmuster; ein Seed sorgt für reproduzierbare Ergebnisse.

Warum: Damit datengetriebene Kundengruppen aus Kauf- und Ausgabenmustern entstehen, statt Segmente nur über feste Regeln zu definieren.

Color Manager

Was: Weist Gruppen (z. B. Cluster) Farben zu, damit Plots leichter lesbar sind.

Warum: Damit Cluster in Visualisierungen klar unterscheidbar sind und Muster schneller erkennbar werden.

Parallel Coordinates Plot

Was: Zeigt viele Merkmale gleichzeitig und macht Clusterprofile im Vergleich sichtbar.

Warum: Damit Clusterprofile über viele Merkmale gleichzeitig verglichen werden können (welcher Cluster ist wo hoch/niedrig).

Datenexploration

Ein Histogramm teilt das Alter in Intervalle (Bins) ein (z. B. 24–27, 27–30 usw.) und zeigt für jedes Intervall, wie viele Kunden in diesem Altersbereich liegen.

  • X-Achse: Alter

  • Y-Achse: Anzahl Kunden im jeweiligen Altersintervall


    Ergebnis / Interpretation:

  • Die Alterswerte liegen ungefähr zwischen 24 und 80 Jahren.

  • Die meisten Kunden sind im Bereich ca. 35 bis 70 Jahre vertreten.

  • Sehr junge (<30) und sehr alte (>75) Kunden sind deutlich seltener (nur wenige Balken am Rand).

  • Insgesamt ist die Verteilung breit, mit einem Schwerpunkt in der mittleren bis älteren Altersgruppe.

Timon Hoffmann - 102209299

CSV Reader
Missing Value
Column Filter
GroupBy
Unpivot
Rule Engine
Bar Chart
Normalizer
k-Means
Normalizer
CSV Reader
k-Means
Statistics
Missing Value
Color Manager
Column Filter
GroupBy
Parallel Coordinates Plot
Histogram
CSV Reader
Missing Value
Color Manager
GroupBy
Missing Value
Missing Value
Column Filter
GroupBy
Bar Chart
Numeric Binner
Numeric Binner
Unpivot
Rule Engine
CSV Reader
Pivot
Column Aggregator
Rule Engine
Column Aggregator
Math Formula (Multi Column)
Rule Engine
Column Combiner
Column Combiner
Pivot
CSV Reader
Math Formula (Multi Column)
Parallel Coordinates Plot
Bar Chart

Nodes

Extensions

Links