Sudienarbeit dsci IM970 im WS 2021 ====== (dsci-9070-aufgabe-1)= ## Aufgabe 1: Kung-San-Dataset verfremden Erläuterung: 2021-11-17 [!Kung San people](https://de.wikipedia.org/wiki/%C7%83Kung) Dataset, from [McElreath](http://xcelab.net/rm/statistical-rethinking/): * [Howell1](https://github.com/rmcelreath/rethinking/blob/master/data/Howell1.csv) > RAW > Bestimmen Sie Ihre Gruppe: *GRP := iterierte Quersumme Ihrer MatNr* Berechnen (alle GRP): * neues numerisches Attribut `BMI_numerisch` ([Wikipedia > BMI](https://de.wikipedia.org/wiki/Body-Mass-Index)) * neues Attribut Attribut `BMI_nominal` mit den Werten *Untergewicht, Normalgewicht, Übergewicht* etc. (siehe z.B. ) Diesen Datensatz verfremden: * GRP 0: 0/1 in 1/0 tauschen * GRP 1-4: Werte aus Größe ersetzen durch englische Fuß (1 ft = 30,48) oder Zoll (1 Zoll = 1/12 ft) * GRP 5-9: Werte aus Gewicht ersetzen durch englische Pfund (1 lb = 453,59237 Gramm) Verfremden: * gerade GRP: in Größe oder Gewicht zufällig 10% NaN einstreuen * ungerade GRP: in Größe oder Gewicht zufällig 10% ein beliebiger "unpassender" Wert als NaN-Ersatz neue Attribute erzeugen (alle GRP): * `train_stratified`: zufällig und repräsentativ (also stratifiziert) 60% der Datensätze mit 1 (und den Rest mit 0) markieren * `train_dirty`: 60% anhand von bestimmten Attributwerten so auswählen, dass der train-test-split *nicht* repräsentativ für die Test-Datensätze sind * Prüfen, beschreiben: Wie dirty ist der `train_dirty` Split? Ergebnissicherung: * *ipynb* abgeben auf Moodle, Benennung: *\_a1.ipynb* * *CSV* abgeben auf Moodle, Benennung: *\_a1.csv* (dsci-9070-aufgabe-2)= ## Aufgabe 2: Kung San separieren Busines Case, Spezifikation, Datensatz siehe auch * * Datensatz: Kung San People > [Howell1.csv](https://moodle.haw-landshut.de/mod/resource/view.php?id=322380) (dsci-9070-aufgabe-3)= ## Aufgabe 3: Gender erschließen Busines Case, Spezifikation, Datensatz siehe auch * * Der Datensatz ist ein echter Datensatz, mit einigen "schmutzigen" Werten: Moodle > Aufgabe 3 > [statur_train.csv](https://moodle.haw-landshut.de/mod/resource/view.php?id=322333) und [statur_test.csv](https://moodle.haw-landshut.de/mod/resource/view.php?id=322332) Vorgehen EDA (Beispiele): Prüfen: m/f etwa gleichverteilt? Wie viele 999, NaN? Visuelles Screening, Visualisieren (zuerst ohne Gender-Info, aber auch mit Unterscheidung m/f (z.B. in blau/rosa, +/x etc.): * Eine Variable: z.B. Histogramme * Zwei Variablen: inbesonder auch ein Scatterplot Beurteilen: Sehen die Diagramme gut aus? * "unpassende Werte" erkannt? * "echte" Außreißer (d.h. weder Messfehler noch Ersatzwerte): wie als Ausreißer erkennen, wie behandeln? (ggf. TEILPROJEKT)