Data Science 101: Curriculum WS 2022¶
Dieser Text: Material, um die Inhalte der Veranstaltung Data Science 1 (dsci-101) im Kontext des Studiengangs KI an der HAW LA im Curriculum intensiver mit anderen Veranstaltungen im 1. Semester abzustimmen.
Was ist Data Science?¶
Data Science (dsci) ist die Kunst, aus Daten Wissen zu schöpfen - und zwar angewandt-wissenschaftlich.
Statisik und Machine Learning (ML) spielen dabei eine wichtige Rolle, decken aber nur einen kleinen Teil von dsci ab. Auch ist dsci ist nicht gleich KI: dsci und KI überschneiden sich, überdecken sich aber nicht. Schnittmenge von dsci und KI:
Mathematik
insbes. Statistik
aber auch Analysis (auch mit mehreren Variablen), lineare Algebra
Machine Learning (ML)
aus strukturierten Daten; auch Process Mining
aus semi- und unstrukturierten Daten: NLP, Bild, allgemein: Signal
Modell-Kennzahlen: Accuracy, AUC, confusion matrix u.v.m.
Modelle der Wissensrepräsentation
zahlreiche nicht-numerische, “crispe” Wissensrepräsentationen
insbes. auch Semantische Wissensrepräsentationen (Logik, Terminologie, Begriffs-Systeme, Semantic Web)
Ethik der KI
Spezifisch dsci:
Datenbewirtschaftung
Datenintegration, Metadaten, Provenance, Datenqualität
Privacy
empirische Forschungsmethoden und Wissenschaftstheorie (auch Import aus den SozWiss)
dgeval-Standards: https://www.degeval.org/degeval-standards/standards-fuer-evaluation/
Kausalität vs. Korrelation
Evaluation von Modellen
Modell vs. Wirklichkeit, insbes. https://de.wikipedia.org/wiki/Strukturalistisches_Theorienkonzept
Wissenschafts-Ethik
Modellbildung und Wissens-Schöpfung sind keine rein innermathematische Angelgenheit, sondern immer auf einen Anwendungsbereich, auf eine domain of interest bezogen (“angewandt-wissenschaftlich”). Deshalb gehört auch die eingehende Beschäftigung mit ausgewählten Anwendungsbereichen zu einem dsci-Studium dazu.
Überlgung zum Curriculum von dsci-101¶
Die Veranstaltung dsci-101 soll (1) in Data Science gemäß dem obigen Verständnis einführen, und zwar (2) nicht in einem expliziten dsci-Studiengang, sondern im Kontext des KI-Studiengangs. Dazu müssen wir eine Balance finden zwischen
Verzahnung, Kontextualisierung, Redundanz
eigene, für dsci unique Inhalte