Statur einer Person

Busines Case 1: Demo für dsci-101 (KI-Studiengang erstes Semester)

(Nicht nur) didaktisches Mini-Projekt in dsci-101: Wir erzeugen solch einen Datensatz selbst. Die Datensammlung verfolgt zwei Ziele:

  • auch: einen echten Datensatz erzeugen

  • vor allem aber mit den TN die Erzeugung als Prozess und die Datenqualität diskutieren.

Dazu hatten wir initial folgende (absichtlich suboptimale) Ansage in der Vorlesung:

Ansage 1

Für eine Data Science Demonstration sind wir an unserer eigenen, subjektiven Charakterisierung der Statur einer Person (“dünn”, “schlank”, “normal”, “kräftig”, “dick”) interessiert, abhängig von folgenden Eigenschaften dieser Person:

  • Größe

  • Alter

  • Schuhgröße

  • Gewicht (geschätzt)

  • Gender (m/f/d)

Unsere subjektive Charakterisierung der Statur dürfte nicht nur durch Größe und Gewicht, sondern auch durch Alter und Gender dieser Person bestimmt sein. Das ist ok, es geht um unsere subjektive Einschätzung. Außerdem:

  • Echte Daten wären super.

  • Bitte auch Kinder dazunehmen.

  • Sicherlich ist das Gewicht ein guter Prädiktor - aber vielleicht wollen Sie das in Ihrem Bekanntenkreis gar nicht erfragen? Kein Problem, schätzen Sie es einfach. Oder Sie tragen ersatzweise 999 ein.

  • Vermutlich ist die Schuhgröße irrelevant, aber genau wissen wir das nicht: Wenn irgend möglich bitte hier echte Daten erfragen.

Abgabe:

In der Nachbesprechung der Aufgabe thematisierten wir folgende Probleme:

  • unklar: Größe in cm oder in Meter?

    • erste Durchführung: Es wurden Größen in cm und m angegeben

  • unklar: deutsche (36-44) oder englische (7-11) Schuhgrößen?

    • erste Durchführung: nur deutsche Schuhrößen

  • “dünn”, “dick”: das sind ggf. abwertende Eigenschaften. Wir werden hier durch sozial erwünschte Antworten eine Verzerrung erhalten.

    • erste Durchführung: Diskussion mit den TN

  • Gewicht schätzen? hallo? Garbage!

  • Interessant wäre, ob die schätzende Person selbst “dünn” oder “dick” ist: Verzerrungen?

  • Für Kinder gelten zwischen Alter und Größe ganz andere Zusammenhänge als für ausgewachsene Menschen: separieren? manuell bei 15, 18, 21? Kann man den Separationspunkt analysieren?

  • 999 als Platzhalter für “unbekannt”: So etwas ist in der Praxis leider üblich. Muss man durch NaN ersetzen!

Busines Case 2 (gleichzeitig Aufgabe 2 in dsci970)

Datensatz:

Im Prinzip geht es darum, für die spezifische Population Kung San einzuschätzen:

  • Wer ist eher (resp. besonders) füllig, eher (resp. besonders) schlank?

  • Wer ist eher (resp. besonders) groß / klein / füllig / schlank für sein Alter?

Wir haben einen Datensatz, in dem mindestens angegeben sind:

  • Alter

  • Größe

  • Gewicht

  • Gender

Natürlich muss man begründen, was man unter “eher” oder “besonders” verstehen will. Diskussion 2021-12-01: Wir nehmen in einer bestimmten Altersgruppe (was immer das ist):

  • xs: die unteren 10%

  • s: die untere Quartile

  • m: der “Durchschnitt”, “normal”

  • l: die obere Quartile

  • xl: die oberen 10%

Unsere Alltagserfahrung zeigt, dass eine solche Einschätzung abhängig ist von Geschlecht, und bei Heranwachsenden natürlich vor allem auch das Alter. (Letzteres auch bei Erwachsenen?).

Wozu Machine Learning, was ist die Target-Variable? Wir wollen “groß / klein / füllig / schlank für sein Alter” - und wir fügen hinzu: für das jeweilige Geschlecht - einschätzen. Dazu benötigen wir für jedes Alter einen “normal”-Wert, ohne den wir die Quartilen nicht bestimen können. Dieser “normal”-Wert soll für die Gruppe Jungen, Mädchen, Männer und Frauen durch Regression bestimmt werden. Hier geht es also nicht um eine Prädiktion für einen unbekannten Wert, sondern um eine Abweichung zu “normal” - wie immer wir “normal” auch bestimmen wollen.

Die eigentliche Aufgabe besteht also darin,

  • für jede Gruppe (Mädchen, Junngen, Männer, Frauen) zu bestimmen, worin altersspezifisch der “Normal”-Wert besteht

  • für jedes Individuum die Abweichung vom “Normal”-Wert zu bestimmen, und davon abhängig die Einschätzung xs, s, m, l, xl festzulegen.

Dazu kann es sinnvoll sein, den Datensatz in verschiedene Gruppen zu separieren.

Busines Case 3 (gleichzeitig Aufgabe 3 in dsci970)

Gegeben ist eine von JB veränderte Version des empirisch erhobenen Datensatzes aus Busines Case 1: Demo für dsci-101 (KI-Studiengang erstes Semester):

  • Training Set:

  • Test Set:

Vorherzusagen (Target) ist die Spalte Gender. Wir nehmen an, dass in einer Konsumenten-Analyse dieses Attribut (scheinbar) nicht erhoben wird, wir aber genau daran sehr interessiert sind.