# Data Science 101: Curriculum WS 2022 Dieser Text: Material, um die Inhalte der Veranstaltung Data Science 1 (dsci-101) im Kontext des Studiengangs KI an der HAW LA im Curriculum intensiver mit anderen Veranstaltungen im 1. Semester abzustimmen. ## Was ist Data Science? Data Science (dsci) ist die Kunst, aus Daten Wissen zu schöpfen - und zwar angewandt-wissenschaftlich. Statisik und Machine Learning (ML) spielen dabei eine wichtige Rolle, decken aber nur einen kleinen Teil von dsci ab. Auch ist dsci ist nicht gleich KI: dsci und KI überschneiden sich, überdecken sich aber nicht. Schnittmenge von dsci und KI: * Mathematik * insbes. Statistik * aber auch Analysis (auch mit mehreren Variablen), lineare Algebra * Machine Learning (ML) * aus strukturierten Daten; auch Process Mining * aus semi- und unstrukturierten Daten: NLP, Bild, allgemein: Signal * Modell-Kennzahlen: Accuracy, AUC, confusion matrix u.v.m. * Modelle der Wissensrepräsentation * zahlreiche nicht-numerische, "crispe" Wissensrepräsentationen * insbes. auch Semantische Wissensrepräsentationen (Logik, Terminologie, Begriffs-Systeme, Semantic Web) * Ethik der KI Spezifisch dsci: * Datenbewirtschaftung * Datenintegration, Metadaten, Provenance, Datenqualität * Privacy * empirische Forschungsmethoden und Wissenschaftstheorie (auch Import aus den SozWiss) * dgeval-Standards: * Kausalität vs. Korrelation * Evaluation von Modellen * Modell vs. Wirklichkeit, insbes. * Wissenschafts-Ethik Modellbildung und Wissens-Schöpfung sind keine rein innermathematische Angelgenheit, sondern immer auf einen Anwendungsbereich, auf eine *domain of interest* bezogen ("angewandt-wissenschaftlich"). Deshalb gehört auch die eingehende Beschäftigung mit ausgewählten Anwendungsbereichen zu einem dsci-Studium dazu. ## Überlgung zum Curriculum von dsci-101 Die Veranstaltung dsci-101 soll (1) in Data Science gemäß dem obigen Verständnis einführen, und zwar (2) nicht in einem expliziten dsci-Studiengang, sondern im Kontext des KI-Studiengangs. Dazu müssen wir eine Balance finden zwischen * Verzahnung, Kontextualisierung, Redundanz * eigene, für dsci unique Inhalte