Sudienarbeit dsci IM970 im WS 2021

Aufgabe 1: Kung-San-Dataset verfremden

Erläuterung: 2021-11-17

!Kung San people Dataset, from McElreath:

Bestimmen Sie Ihre Gruppe: GRP := iterierte Quersumme Ihrer MatNr

Berechnen (alle GRP):

Diesen Datensatz verfremden:

  • GRP 0: 0/1 in 1/0 tauschen

  • GRP 1-4: Werte aus Größe ersetzen durch englische Fuß (1 ft = 30,48) oder Zoll (1 Zoll = 1/12 ft)

  • GRP 5-9: Werte aus Gewicht ersetzen durch englische Pfund (1 lb = 453,59237 Gramm)

Verfremden:

  • gerade GRP: in Größe oder Gewicht zufällig 10% NaN einstreuen

  • ungerade GRP: in Größe oder Gewicht zufällig 10% ein beliebiger “unpassender” Wert als NaN-Ersatz

neue Attribute erzeugen (alle GRP):

  • train_stratified: zufällig und repräsentativ (also stratifiziert) 60% der Datensätze mit 1 (und den Rest mit 0) markieren

  • train_dirty: 60% anhand von bestimmten Attributwerten so auswählen, dass der train-test-split nicht repräsentativ für die Test-Datensätze sind

  • Prüfen, beschreiben: Wie dirty ist der train_dirty Split?

Ergebnissicherung:

  • ipynb abgeben auf Moodle, Benennung: <MatNr>_a1.ipynb

  • CSV abgeben auf Moodle, Benennung: <MatNr>_a1.csv

Aufgabe 2: Kung San separieren

Busines Case, Spezifikation, Datensatz siehe auch

Aufgabe 3: Gender erschließen

Busines Case, Spezifikation, Datensatz siehe auch

Vorgehen EDA (Beispiele):

Prüfen: m/f etwa gleichverteilt? Wie viele 999, NaN?

Visuelles Screening, Visualisieren (zuerst ohne Gender-Info, aber auch mit Unterscheidung m/f (z.B. in blau/rosa, +/x etc.):

  • Eine Variable: z.B. Histogramme

  • Zwei Variablen: inbesonder auch ein Scatterplot

Beurteilen: Sehen die Diagramme gut aus?

  • “unpassende Werte” erkannt?

  • “echte” Außreißer (d.h. weder Messfehler noch Ersatzwerte): wie als Ausreißer erkennen, wie behandeln? (ggf. TEILPROJEKT)