City and country do not match
Product name and category do not match
Single table view: No missing values & no negative values (check via statistic view) & no wrong data types
Check if discount min and max value lies between 0 and 1 -> YES (via statistic view)
In Sales CSV gibt es eine ProduktID P0000 und P0201, allerdings startet es in der Product CSV bei P0001 und endet bei P0200 -> betrifft 4295 Zeilen (P0000) und 4268 Zeilen (P0201) und damit 0,98% der Daten!
Feature Engineering:
Zeit-Features
Saisonalität ("is_holiday"): Ostern, Weihnachten, Valentinstag, Halloween, Muttertag/Vatertag -> Zeitraum vorher relevant!
Ostern und Muttertag/Vatertag: Nicht immer am selben Tag!
Nicht alle Länder haben dieselben Daten!
2023: 26.03. - 09.04. (Zeitraum von 2 Wochen vorher)
2024: 17.03. - 31.03. (Zeitraum von 2 Wochen vorher)
Weihnachten: 01.12. - 24.12. (ganzer Monat wegen Advent)
Valentinstag: 07.02. - 14.02. (Zeitraum von 1 Woche vorher)
Halloween: 24.10. - 31.10 (Zeitraum von 1 Woche vorher)
Muttertag/Vatertag:
2023: 07.05. - 18.05. (Zeitraum von 1 Woche vor Muttertag -> 14.05.)
2024: 02.05. - 12.05. (Zeitraum von 1 Woche vor Vatertag -> 09.05.)
-> mit den Jahren 2025 bis 2027 wird entsprechend genauso verfahren.
Wochentag: Wird Schokolade bevorzugt unter der Woche oder am Wochenende gekauft? Welcher Tag unter der Woche wird bevorzugt?
Tag der Woche (Montag-Freitag) -> "day of week"
Wochenende (ja/nein) -> "is_weekend"
Store-Type Features
Ferienzeiten bei Airport Store berücksichtigen?!
Produktkategorie-Features
Gift Kategorie: Praline, Truffle -> eher zu Feiertagen gekauft (vsl. dort Peaks)
Everyday Kategorie: Dark, White, Milk -> immer gekauft
Lag & Trendfeatures
Gleicher Wochentag letzte Woche
Zweiwöchiger Rhythmus
Monatlicher Rhythmus
Monatstrend
Rabatt Features
Hat Discount (ja/nein)
Customer Features
Ist Loyality Kunde (ja/nein)
Alter (kaufen Ältere mehr als Jüngere?)
Geschlecht (kaufen Frauen mehr als Männer?)
CREATING TIME FEATURES
"is_weekend" = all rows have the same value, so I choose the first
"proximity_holiday" = different transactions on the same day could theoretically have different proximity values -> Setting the value to Maximum” ensures that the strongest holiday effect is retained
"Die lineare Regression erreicht ein R² von 0.35, was zeigt dass die Nachfrage nicht durch lineare Zusammenhänge erklärt werden kann. Die nicht-linearen Muster wie Saisonalität und Feiertagseffekte erfordern komplexere Modelle.
Problem: Ich verliere pro Kombination 28 Zeilen, wenn ich Lags verwende! Da gibt es keine Vergangenheitswerte!
To use this workflow in KNIME, download it from the below URL and open it in KNIME:
Deploy, schedule, execute, and monitor your KNIME workflows locally, in the cloud or on-premises – with our brand new NodePit Runner.