Sudienarbeit dsci IM970 im WS 2021
======

(dsci-9070-aufgabe-1)=
## Aufgabe 1: Kung-San-Dataset verfremden

Erläuterung: 2021-11-17

[!Kung San people](https://de.wikipedia.org/wiki/%C7%83Kung) Dataset, from [McElreath](http://xcelab.net/rm/statistical-rethinking/): 
* [Howell1](https://github.com/rmcelreath/rethinking/blob/master/data/Howell1.csv) > RAW > <https://raw.githubusercontent.com/rmcelreath/rethinking/master/data/Howell1.csv>

<!-- (from <https://opendata.stackexchange.com/questions/7793/age-weight-and-height-dataset>) -->

Bestimmen Sie Ihre Gruppe:  *GRP := iterierte Quersumme Ihrer MatNr*

Berechnen (alle GRP):
* neues numerisches Attribut `BMI_numerisch` ([Wikipedia > BMI](https://de.wikipedia.org/wiki/Body-Mass-Index))
* neues Attribut Attribut `BMI_nominal` mit den Werten *Untergewicht, Normalgewicht, Übergewicht*  etc. (siehe z.B. <https://adipositas-gesellschaft.de/bmi/>)

Diesen Datensatz verfremden:
* GRP 0: 0/1 in 1/0 tauschen
* GRP 1-4: Werte aus Größe ersetzen durch englische Fuß (1 ft = 30,48) oder Zoll (1 Zoll = 1/12 ft)
* GRP 5-9: Werte aus Gewicht ersetzen durch englische Pfund (1 lb = 453,59237 Gramm)

<!-- * GRP 7-0: Volumen ersetzen durch US-Gallonen: (1 US.liq.gal. = 3,785411784 Liter) -->


Verfremden:
* gerade GRP: in Größe oder Gewicht zufällig 10% NaN einstreuen
* ungerade GRP: in Größe oder Gewicht zufällig 10% ein beliebiger "unpassender" Wert als NaN-Ersatz

neue Attribute erzeugen (alle GRP):
* `train_stratified`: zufällig und repräsentativ (also stratifiziert) 60% der Datensätze mit 1 (und den Rest mit 0) markieren
* `train_dirty`: 60% anhand von bestimmten Attributwerten so auswählen, dass der train-test-split *nicht* repräsentativ für die Test-Datensätze sind
* Prüfen, beschreiben: Wie dirty ist der `train_dirty` Split?

Ergebnissicherung:
* *ipynb* abgeben auf Moodle, Benennung: *\<MatNr\>_a1.ipynb*
* *CSV* abgeben auf Moodle, Benennung: *\<MatNr\>_a1.csv*


(dsci-9070-aufgabe-2)=
## Aufgabe 2: Kung San separieren

Busines Case, Spezifikation, Datensatz siehe auch
* <http://jbusse.de/2021_ws_dsci/dsci-101-statur.html#busines-case-2-gleichzeitig-aufgabe-2-in-dsci970>
* Datensatz: Kung San People > [Howell1.csv](https://moodle.haw-landshut.de/mod/resource/view.php?id=322380)


(dsci-9070-aufgabe-3)=
## Aufgabe 3: Gender erschließen

Busines Case, Spezifikation, Datensatz siehe auch
* <http://jbusse.de/2021_ws_dsci/dsci-101-statur.html#busines-case-3-gleichzeitig-aufgabe-3-in-dsci970>
* Der Datensatz ist ein echter Datensatz, mit einigen "schmutzigen" Werten: Moodle > Aufgabe 3 > [statur_train.csv](https://moodle.haw-landshut.de/mod/resource/view.php?id=322333) und [statur_test.csv](https://moodle.haw-landshut.de/mod/resource/view.php?id=322332)


Vorgehen EDA (Beispiele):

Prüfen: m/f etwa gleichverteilt? Wie viele 999, NaN?

Visuelles Screening, Visualisieren (zuerst ohne Gender-Info, aber auch mit Unterscheidung m/f (z.B. in blau/rosa, +/x etc.):
*  Eine Variable: z.B. Histogramme
*  Zwei Variablen: inbesonder auch ein Scatterplot

Beurteilen: Sehen die Diagramme gut aus?
* "unpassende Werte" erkannt?
* "echte" Außreißer (d.h. weder Messfehler noch Ersatzwerte): wie als Ausreißer erkennen, wie behandeln?  (ggf. TEILPROJEKT)

<!-- 
bimodale Verteilung?
* Erklärungung hier: Längen- / Größen- / Gewichtseinheiten uneinheitlich, Mischung von *cm*, *m*, auch *ft*, *lb* etc.
* Bearbeitung: Füge neues Feature `Größe_Einheit` hinzu
* mit Werten wie `cm`, `m`, `Fuß`: Füllen dieses Feature an
  * einfach: heuristisch über eine Abfrage
  * fancy: mit ML, z.B. Clustern (ggf. TEILPROJEKT)
* Werte kompatibel machen: Größe anhand von `Größe_Einheit` einheitlich in cm etc. (Good Practice: Wir überschreiben keine Werte, sondern fügen neue Features hinzu)
-->