Sudienarbeit dsci IM970 im WS 2021¶
Aufgabe 1: Kung-San-Dataset verfremden¶
Erläuterung: 2021-11-17
!Kung San people Dataset, from McElreath:
Bestimmen Sie Ihre Gruppe: GRP := iterierte Quersumme Ihrer MatNr
Berechnen (alle GRP):
neues numerisches Attribut
BMI_numerisch
(Wikipedia > BMI)neues Attribut Attribut
BMI_nominal
mit den Werten Untergewicht, Normalgewicht, Übergewicht etc. (siehe z.B. https://adipositas-gesellschaft.de/bmi/)
Diesen Datensatz verfremden:
GRP 0: 0/1 in 1/0 tauschen
GRP 1-4: Werte aus Größe ersetzen durch englische Fuß (1 ft = 30,48) oder Zoll (1 Zoll = 1/12 ft)
GRP 5-9: Werte aus Gewicht ersetzen durch englische Pfund (1 lb = 453,59237 Gramm)
Verfremden:
gerade GRP: in Größe oder Gewicht zufällig 10% NaN einstreuen
ungerade GRP: in Größe oder Gewicht zufällig 10% ein beliebiger “unpassender” Wert als NaN-Ersatz
neue Attribute erzeugen (alle GRP):
train_stratified
: zufällig und repräsentativ (also stratifiziert) 60% der Datensätze mit 1 (und den Rest mit 0) markierentrain_dirty
: 60% anhand von bestimmten Attributwerten so auswählen, dass der train-test-split nicht repräsentativ für die Test-Datensätze sindPrüfen, beschreiben: Wie dirty ist der
train_dirty
Split?
Ergebnissicherung:
ipynb abgeben auf Moodle, Benennung: <MatNr>_a1.ipynb
CSV abgeben auf Moodle, Benennung: <MatNr>_a1.csv
Aufgabe 2: Kung San separieren¶
Busines Case, Spezifikation, Datensatz siehe auch
http://jbusse.de/2021_ws_dsci/dsci-101-statur.html#busines-case-2-gleichzeitig-aufgabe-2-in-dsci970
Datensatz: Kung San People > Howell1.csv
Aufgabe 3: Gender erschließen¶
Busines Case, Spezifikation, Datensatz siehe auch
http://jbusse.de/2021_ws_dsci/dsci-101-statur.html#busines-case-3-gleichzeitig-aufgabe-3-in-dsci970
Der Datensatz ist ein echter Datensatz, mit einigen “schmutzigen” Werten: Moodle > Aufgabe 3 > statur_train.csv und statur_test.csv
Vorgehen EDA (Beispiele):
Prüfen: m/f etwa gleichverteilt? Wie viele 999, NaN?
Visuelles Screening, Visualisieren (zuerst ohne Gender-Info, aber auch mit Unterscheidung m/f (z.B. in blau/rosa, +/x etc.):
Eine Variable: z.B. Histogramme
Zwei Variablen: inbesonder auch ein Scatterplot
Beurteilen: Sehen die Diagramme gut aus?
“unpassende Werte” erkannt?
“echte” Außreißer (d.h. weder Messfehler noch Ersatzwerte): wie als Ausreißer erkennen, wie behandeln? (ggf. TEILPROJEKT)