Icon

POP Supermarkt Sales_​Vorschlag

Aufgabe 1 Die schweizerische Supermarktkette "POP" hat in ihren10 Filialen in Nordrhein-Westfalen im Jahr 2018Verkaufsdaten zu 1559 Produkten erfasst und in einerTabelle zusammengetragen. Es wurden nicht nur dieVerkaufsmengen, sondern auch leicht erfassbareProduktattribute erfasst.Dazu gehören:ProduktID, Produkt_Gewicht, Produkt_Fettgehalt,Produkt_Typ (Kategorie), Produkt_Preis_CHF,Filiale_ID, Filiale_Eröffnung (Eröffnungsjahr),Filiale_Größe (klein/mittel/groß), Filiale_Standort(zentral/Wohngebiet/außerhalb),Produkt_Umsatz_CHFProdukt_Sichtbarkeit (Anteil an der Ausstellungsfläche)Filiale_Typ (Variante nach Zielgruppe, ohne weitereAufschlüsselung)Das Ziel ist es, ein Modell zu entwickeln, welches dieVerkaufszahlen der einzelnen Produkte in denjeweiligen Filialen möglichst genau vorhersagt. Prüfen Sie, welche Spalten fehlende Werteoder "0" enthalten. Ist das logisch zuerklären?Prüfen Sie in den Spalten, die nur wenigeverschiedene Werte enthalten, ob wir diesesinnvoll nutzen können oder ob wir Datenanpassen müssen. Aufgabe 2 Da wir über 1000 fehlende Werte beim AttributProdukt_Gewicht haben, müssen wir diesefehlenden Daten korrigieren.Welches Vorgehen wäre Ihrer Meinung nachsinnvoll? Setzen Sie Ihre Idee entsprechend um.Erstellen Sie für die Korrektur eine Metanode. Aufgabe 3 Welches Vorgehen ist zur Behebung der vielen Nullen bei der Sichtbarkeit desProdukts sinnvoll? Setzen Sie Ihre Idee entsprechend um. Aufgabe 4 Wählen Sie eine Vorgehensweise, um die fehlendenWerte in der Spalte Filiale_Größe zu ersetzen. Bei der Datensichtung ist Ihnen bestimmt aufgefallen,dass es bei dem Produktattribut Fett_Anteil dreiverschiedene Schreibweisen für fettarme Produkte undzwei verschiebene Schreibweisen für reguläreProdukte gibt. Dies würde beim Training eines Modellszu schlechten Ergebnissen führen, da das Modelldavon ausgehen würde, dass dies unterschiedlicheAttributausprägungen sind.Vereinheitliche Sie deshalb die Schreibweisen. Rechnen Sie die Preise und denUmsatz von CHF in EUR um. Aufgabe 5 Welche Attribute können wir gegebenenfalls für unsereAnalyse verbessern oder geeigneter gestalten? Wandeln Sie Filial_ID ineinen String um. Aufgabe 6 Zuletzt wollen wir ein Modell erstellen, um den Produktumsatz für jedes Produkt vorherzusagen. Teilen Sie den Datensatz vorhersinnvoll auf. Erstellen Sie dann ein einfaches mathematisches Modell, indem Sie lediglich den durchschnittlichen Umsatz nach Produktart undFiliale berechnen. Führen Sie die erstellte Tabelle wieder mit der Ursprungstabelle zusammen und beurteilen Sie die Vorhersagequalität dieseseinfachen mathematischen Modells mit einer Scorer Node.Erstellen Sie anschließend ein maschinelles Modell für die gleiche Vorhersage.Welchen Algorithmus würden Sie nun verwenden, um eine Vorhersage über den Produktumsatz in den einzelnen Filialen zu treffen? Probieren Sie mehrere passende Algorithmen aus. Das einfache Model, welches den Durchschnitt des Umsatzes zur Vorhersage nimmt, hat eine hohe Abweichung vom realen Umsatz.Eine lineare Regression liefert bessere Ergebnisse.Der Root Mean Squared Error (RMSE) ist eine Maßzahl zur Beurteilung der Prognosegüte. Dieser gibt an, wie gut eine Funktionskurvean vorliegende Daten angepasst ist, beziehungsweise wie stark eine Prognose im Durchschnitt von den (historischen) Daten/tatsächlichen Beobachtungswerten abweicht. Berechnet wird der RMSE aus der Quadratwurzel des durchschnittlichenPrognosefehlers. Je größer der RMSE-Wert ist, desto schlechter ist die Anpassung des Modells. Es gilt demnach, durch die Steuerungvon Einflussfaktoren den kleinstmöglichen RMSE zu erhalten, um so die Güte eines Modells zu verbessern. Das Eröffnungsjahr variiert zwischen 2001 und 2017.Je nachdem, welchen Algorithmus wir verwenden, isteine Änderung von der Zahl 2001 auf 2017 nicht sogroß, da sie nur einen geringen Bruchteil dergesamten Zahl ausmacht. Wenn man jedoch dasEröffnungsjahr als Alter der Filiale ansieht, dann machtes einen großen Unterschied, ob ein Geschäft 1 oder17 Jahre alt ist.Wir wandeln daher die Spalte Eröffnungsjahr in Alterum. Denken Sie daran, dass die Daten aus dem Jahr2018 stammen. Sie müssen also das Filialalter imJahr 2018 bestimmen.Denkbar wäre auch die Zusammenfassung vonProdukt_Typen zu größeren Gruppen oder dieAbleitung von Produktgruppen aus der Produkt_ID. Wechselkurs CHF in EUR (Juni2020): 1 CHF -> 0.92 EUR Hier gibt es mehrere Lösungswege, die alle richtigsind:Wichtig ist, dass selbst, wenn in Zukunft neueBezeichnungen des Fettanteils eingeführt werden,diese durch den Workflow verarbeitet werden.(Bsp.: "Doppelrahmstufe", durch die Zeile TRUE =>haben wir immer eine Weitergabe aller Wertesichergestellt) Da es nur 10 FIlialen gibt, können wir auf keinen Falldie betroffenen Filialen löschen, da wir damit einensignifikanten Teil der Daten verlieren würden.Wir können fehlende Einträge jedoch einfach durch diehäufigste Filialgröße ersetzen. Eine Sichtbarkeit des Produkts von 0 bei gleichzeitigem Umsatz in der Filiale istunmöglich, da nur ausgestellte Produkte verkauft werden können. Die Positionierung von Produkten ist in verschiedenen Supermärkten ähnlich. DieSichtbarkeit wird also der durchschnittlichen Sichtbarkeit in den anderen Filialenentsprechen. Die Produkt-ID kommt mehrfach vor, da sie für jedeFiliale identisch ist. Da die Produkte in denverschiedenen Filialen jedoch gleich viel wiegen,können die fehlenden Werte mit Angaben aus denanderen Filialen imputiert werden.Es bleiben nun noch 4 fehlende Werte. Für diesewerden wir den Durchschnitt je Produktgruppeeinsetzen. Produkt_Sichtbarkeit ist 0 bei 526 Zeilen.Produkt_Gewicht hat 1463 fehlende Einträge.Produkt_Fettgehalt wird in insgesamt fünfverschiedenen Schreibweisen angegeben.Davon beschreiben drei Schreibweisen fettarmeProdukte und zwei Schreibweisen reguläreProdukte, die nicht fettreduziert sind.Filiale_Größe hat 2410 fehlende Einträge. Datenverständnis:Lesen Sie die Aufgabenstellung aufmerksam durch undschauen Sie sich die Daten an. Da wir die Zielsetzung unddie vorliegenden Variablen und Zielgrößen kennen,können wir nun einige Hypothesen aufstellen: Welche Ergebnisse können wir mit den Daten generieren?Welche Eigenschaften könnten besonders wichtig für denVerkauf der Produkte sein?Denken Sie, dass sich eher Attribute der Filialen oder eherProduktattribute auf die Verkaufszahlen auswirken?Welche Attribute, die in den vorliegenden Daten nichterfasst sind, könnten wir gegebenenfalls noch sammeln?Fallen Ihnen hierfür geeignete Datenquellen ein? Aufgabe 7 Exportieren Sie abschließend die beidenVorhersagetabellen als Excel-Tabelle,sowie das Regressionsmodell als PMML-Datei. DatenimportDatenübersichtGewicht ergänzenDurchschnitt Sichtbarkeitje ProduktIDAnfügendes DurchschnittsErsetzen der 0Ersetzen der Filialgrößedurch häufigsteVereinheitlichung derFettgehaltsschreibweisePreis in EURUmsatz in EURBerechnungAlter der FilialeFilial_ID in StringAufteilung70% Übung30% TestDurchschnittProdukt_Umsatz_EURnach Typ und FilialeAnfügen des DurchschnittsBewertung des ModellsLineare RegressionVorhersageProdukt_Umsatz_EURBewertung des ModellsRegressionsmodellVorhersage RegressionVorhersage Durchschnitt Excel Reader (XLS) Data Explorer Gewicht ergänzen GroupBy Joiner Rule Engine Missing Value Rule Engine Math Formula Math Formula Math Formula Number To String Partitioning GroupBy Joiner Numeric Scorer Linear RegressionLearner RegressionPredictor Numeric Scorer PMML Writer Excel Writer (XLS) Excel Writer (XLS) Aufgabe 1 Die schweizerische Supermarktkette "POP" hat in ihren10 Filialen in Nordrhein-Westfalen im Jahr 2018Verkaufsdaten zu 1559 Produkten erfasst und in einerTabelle zusammengetragen. Es wurden nicht nur dieVerkaufsmengen, sondern auch leicht erfassbareProduktattribute erfasst.Dazu gehören:ProduktID, Produkt_Gewicht, Produkt_Fettgehalt,Produkt_Typ (Kategorie), Produkt_Preis_CHF,Filiale_ID, Filiale_Eröffnung (Eröffnungsjahr),Filiale_Größe (klein/mittel/groß), Filiale_Standort(zentral/Wohngebiet/außerhalb),Produkt_Umsatz_CHFProdukt_Sichtbarkeit (Anteil an der Ausstellungsfläche)Filiale_Typ (Variante nach Zielgruppe, ohne weitereAufschlüsselung)Das Ziel ist es, ein Modell zu entwickeln, welches dieVerkaufszahlen der einzelnen Produkte in denjeweiligen Filialen möglichst genau vorhersagt. Prüfen Sie, welche Spalten fehlende Werteoder "0" enthalten. Ist das logisch zuerklären?Prüfen Sie in den Spalten, die nur wenigeverschiedene Werte enthalten, ob wir diesesinnvoll nutzen können oder ob wir Datenanpassen müssen. Aufgabe 2 Da wir über 1000 fehlende Werte beim AttributProdukt_Gewicht haben, müssen wir diesefehlenden Daten korrigieren.Welches Vorgehen wäre Ihrer Meinung nachsinnvoll? Setzen Sie Ihre Idee entsprechend um.Erstellen Sie für die Korrektur eine Metanode. Aufgabe 3 Welches Vorgehen ist zur Behebung der vielen Nullen bei der Sichtbarkeit desProdukts sinnvoll? Setzen Sie Ihre Idee entsprechend um. Aufgabe 4 Wählen Sie eine Vorgehensweise, um die fehlendenWerte in der Spalte Filiale_Größe zu ersetzen. Bei der Datensichtung ist Ihnen bestimmt aufgefallen,dass es bei dem Produktattribut Fett_Anteil dreiverschiedene Schreibweisen für fettarme Produkte undzwei verschiebene Schreibweisen für reguläreProdukte gibt. Dies würde beim Training eines Modellszu schlechten Ergebnissen führen, da das Modelldavon ausgehen würde, dass dies unterschiedlicheAttributausprägungen sind.Vereinheitliche Sie deshalb die Schreibweisen. Rechnen Sie die Preise und denUmsatz von CHF in EUR um. Aufgabe 5 Welche Attribute können wir gegebenenfalls für unsereAnalyse verbessern oder geeigneter gestalten? Wandeln Sie Filial_ID ineinen String um. Aufgabe 6 Zuletzt wollen wir ein Modell erstellen, um den Produktumsatz für jedes Produkt vorherzusagen. Teilen Sie den Datensatz vorhersinnvoll auf. Erstellen Sie dann ein einfaches mathematisches Modell, indem Sie lediglich den durchschnittlichen Umsatz nach Produktart undFiliale berechnen. Führen Sie die erstellte Tabelle wieder mit der Ursprungstabelle zusammen und beurteilen Sie die Vorhersagequalität dieseseinfachen mathematischen Modells mit einer Scorer Node.Erstellen Sie anschließend ein maschinelles Modell für die gleiche Vorhersage.Welchen Algorithmus würden Sie nun verwenden, um eine Vorhersage über den Produktumsatz in den einzelnen Filialen zu treffen? Probieren Sie mehrere passende Algorithmen aus. Das einfache Model, welches den Durchschnitt des Umsatzes zur Vorhersage nimmt, hat eine hohe Abweichung vom realen Umsatz.Eine lineare Regression liefert bessere Ergebnisse.Der Root Mean Squared Error (RMSE) ist eine Maßzahl zur Beurteilung der Prognosegüte. Dieser gibt an, wie gut eine Funktionskurvean vorliegende Daten angepasst ist, beziehungsweise wie stark eine Prognose im Durchschnitt von den (historischen) Daten/tatsächlichen Beobachtungswerten abweicht. Berechnet wird der RMSE aus der Quadratwurzel des durchschnittlichenPrognosefehlers. Je größer der RMSE-Wert ist, desto schlechter ist die Anpassung des Modells. Es gilt demnach, durch die Steuerungvon Einflussfaktoren den kleinstmöglichen RMSE zu erhalten, um so die Güte eines Modells zu verbessern. Das Eröffnungsjahr variiert zwischen 2001 und 2017.Je nachdem, welchen Algorithmus wir verwenden, isteine Änderung von der Zahl 2001 auf 2017 nicht sogroß, da sie nur einen geringen Bruchteil dergesamten Zahl ausmacht. Wenn man jedoch dasEröffnungsjahr als Alter der Filiale ansieht, dann machtes einen großen Unterschied, ob ein Geschäft 1 oder17 Jahre alt ist.Wir wandeln daher die Spalte Eröffnungsjahr in Alterum. Denken Sie daran, dass die Daten aus dem Jahr2018 stammen. Sie müssen also das Filialalter imJahr 2018 bestimmen.Denkbar wäre auch die Zusammenfassung vonProdukt_Typen zu größeren Gruppen oder dieAbleitung von Produktgruppen aus der Produkt_ID. Wechselkurs CHF in EUR (Juni2020): 1 CHF -> 0.92 EUR Hier gibt es mehrere Lösungswege, die alle richtigsind:Wichtig ist, dass selbst, wenn in Zukunft neueBezeichnungen des Fettanteils eingeführt werden,diese durch den Workflow verarbeitet werden.(Bsp.: "Doppelrahmstufe", durch die Zeile TRUE =>haben wir immer eine Weitergabe aller Wertesichergestellt) Da es nur 10 FIlialen gibt, können wir auf keinen Falldie betroffenen Filialen löschen, da wir damit einensignifikanten Teil der Daten verlieren würden.Wir können fehlende Einträge jedoch einfach durch diehäufigste Filialgröße ersetzen. Eine Sichtbarkeit des Produkts von 0 bei gleichzeitigem Umsatz in der Filiale istunmöglich, da nur ausgestellte Produkte verkauft werden können. Die Positionierung von Produkten ist in verschiedenen Supermärkten ähnlich. DieSichtbarkeit wird also der durchschnittlichen Sichtbarkeit in den anderen Filialenentsprechen. Die Produkt-ID kommt mehrfach vor, da sie für jedeFiliale identisch ist. Da die Produkte in denverschiedenen Filialen jedoch gleich viel wiegen,können die fehlenden Werte mit Angaben aus denanderen Filialen imputiert werden.Es bleiben nun noch 4 fehlende Werte. Für diesewerden wir den Durchschnitt je Produktgruppeeinsetzen. Produkt_Sichtbarkeit ist 0 bei 526 Zeilen.Produkt_Gewicht hat 1463 fehlende Einträge.Produkt_Fettgehalt wird in insgesamt fünfverschiedenen Schreibweisen angegeben.Davon beschreiben drei Schreibweisen fettarmeProdukte und zwei Schreibweisen reguläreProdukte, die nicht fettreduziert sind.Filiale_Größe hat 2410 fehlende Einträge. Datenverständnis:Lesen Sie die Aufgabenstellung aufmerksam durch undschauen Sie sich die Daten an. Da wir die Zielsetzung unddie vorliegenden Variablen und Zielgrößen kennen,können wir nun einige Hypothesen aufstellen: Welche Ergebnisse können wir mit den Daten generieren?Welche Eigenschaften könnten besonders wichtig für denVerkauf der Produkte sein?Denken Sie, dass sich eher Attribute der Filialen oder eherProduktattribute auf die Verkaufszahlen auswirken?Welche Attribute, die in den vorliegenden Daten nichterfasst sind, könnten wir gegebenenfalls noch sammeln?Fallen Ihnen hierfür geeignete Datenquellen ein? Aufgabe 7 Exportieren Sie abschließend die beidenVorhersagetabellen als Excel-Tabelle,sowie das Regressionsmodell als PMML-Datei. DatenimportDatenübersichtGewicht ergänzenDurchschnitt Sichtbarkeitje ProduktIDAnfügendes DurchschnittsErsetzen der 0Ersetzen der Filialgrößedurch häufigsteVereinheitlichung derFettgehaltsschreibweisePreis in EURUmsatz in EURBerechnungAlter der FilialeFilial_ID in StringAufteilung70% Übung30% TestDurchschnittProdukt_Umsatz_EURnach Typ und FilialeAnfügen des DurchschnittsBewertung des ModellsLineare RegressionVorhersageProdukt_Umsatz_EURBewertung des ModellsRegressionsmodellVorhersage RegressionVorhersage Durchschnitt Excel Reader (XLS) Data Explorer Gewicht ergänzen GroupBy Joiner Rule Engine Missing Value Rule Engine Math Formula Math Formula Math Formula Number To String Partitioning GroupBy Joiner Numeric Scorer Linear RegressionLearner RegressionPredictor Numeric Scorer PMML Writer Excel Writer (XLS) Excel Writer (XLS)

Nodes

Extensions

Links