dsci 101: Curriculum#

Die Veranstaltung Data Science 101 führt zu etwa gleichen Teilen ein in

  • (a) das Fach Data Science,

  • (b) Lernmethoden insbesondere im Studiengang KI,

  • (c) die grundlegende technische Infrastruktur rund um Jupyter Notebooks unter Linux.

Modulhandbuch WS 2022#

Qualifikationsziele: Die Studierenden sind mit den Tätigkeiten eines Data Scientist vertraut und können diese erläutern. Sie kennen die einzelnen Prozesschritte der Datenintegration und können diese mit Hilfe geeigneter Bibliotheken implementieren und einsetzen. Sie können zielgerichtet eine kleines Data Set erzeugen und analysieren. Sie verfügen über grundlegende Kenntnisse über das maschinelle Lernen und können diese einsetzen, um einfache Modelle zu trainieren und deren Qualität zu evaluieren. Sie sind mit wichtigen Aspekten der Datenethik und Data Privacy vertraut.

Lehrinhalte: Der Stoff des seminaristischen Unterrichts wird vorwiegend durch Lehrbücher definiert, im WS 2022 insbesondere Stefan Papp et al: “The Handbook of Data Science and AI”, Hanser 2022. Insbesondere fokussieren wir die folgenden Kapitel und Stichworte:

  • Kap. 1, Introduction: What are Data Science, Machine Learning and Artificial Intelligence? Roles in Data Teams; Volume, Velocity, Veracity, Variety;

  • Kap. 2, Infrastructure: Hardware; Distributed Systems; Linux Essentials; Cloud-Services,

  • Kap. 3, Data Architecture: ETL; Data Ingestion and Integration; File Formats (CSV, JSON, XML); Data Warehouses, Data Lakes, and Lakehouses; Workflow Orchestration

  • Kap. 4, Data Engineering: Data Pipelines; CI/CD; Managing Analytical Models

  • Kap. 5, Data Management: Data Governance; Data Quality; Information Security; Privacy

  • Kap. 18, Trustworthy AI

Aus anderen Quellen:

  • Ethik der KI

  • Eigenschaften von Daten: Big Data vs. Small Data; strukturierte / unstrukturierte Daten; kategorische / quantitative Daten

  • Einblicke in das Berufsfeld Data Science / Data Science in Unternehmen

Kompetenzen: In der Übung erwerben und praktizieren die Studierenden die praktischen Fertigkeiten, auf einem XUbuntu-Rechner in Juptyer Notebooks eine sehr einfache Datenanalyse zu berechnen sowie die wesentlichen Inhalte der Veranstaltung mit Jupyterbook, Zotero und LaTeX nach dem Stand der Technik als Website und als pdf-Dokument zu dokumentieren. Die Veranstaltung führt damit auch in das praktische wissenschaftliche Arbeiten ein.

Die selbst erstellen Teile dieses Skripts sind auch als Hilfsmittel in der Klausur zugelassen.

Didaktik#

In einem akademischen Lernarrangement ist es nicht nur möglich, sondern immer auch erforderlich, die Sach-Inhalte einer Veranstaltung aus Lehrbüchern zu erlernen.

  • Der Lehrstoff wird vorwiegend durch unsere Lehrbücher definiert.

  • In der “Vorlesung” trägt JB den Stoff nicht selbst vor, sondern bespricht den durch die Lehrbücher definierten Lehrstoff.

  • In der Übung setzen wir ausgewählte Inhalte der Lehrbücher in Form von Aufgaben und einem Mini-Datenprojekt exemplarisch praktisch um.

Eine wesentliche Aufgabe sieht der Dozent in der Kuratierung der Lehrbücher, der Modularisierung des Stoffes, der Rhythmisierung des Lernens, dem Arrangement von gemeinsamen synchronen Lernen einer Gruppe von Lernenden, und vor allem die Herstellung von Aufgaben und vorbereiteten Lernumgebungen.

Kurz: Die Theorie ist in den Lehrbüchern enthalten. Die “Vorlesung” besucht man, um sich im Dschungel zu orientieren. Und die Übungen besucht man natürlich wegen der Praxis.

Kompetenzorientierung#

Die Veranstaltung will kompetenzorientierte Lernformen ermöglichen. Was das konkret heißt bedarf ausführlicherer Ausführungen, aber hier wenigens ein paar Gedanken dazu.

Wir bewegen uns in einem Ökosystem, das durch folgenden Technologie-Stack charakterisiert ist:

  • Codieren: Python, Jupyter Notebook, scikit-learn

  • Dokumentation und Publikatioen: Jupyterbook, Zotero, Diataxis

  • Mindmap: Freeplane

  • Plattform: XUbuntu

Kenntnisse (Wortfeld: Wissen, theoretisch, meist sprachlich verfasst, propositionala)#

  • Ausgewählte Inhalte aus ausgewählten externen Wissens-Expositionen (konventionelle Bücher, Online-Tutorials, HowTos aus Stackexchange) kennen und erläutern können

  • Die Zusammenhänge unseres Technologie-Stacks kennen

Fertigkeiten (Wortfeld: Können, praktisch, ausführen, Übung, Erfahrung, Kunstfertigkeit)#

Mit unserem spezifischen Technologie-Stack (s.u.) die folgenden Standard-Tätigkeiten routinierte ausführen können:

  • Die externen Wissens-Expositionen zusammenfassen und in ein eigenes Skript überführen (das als

Kompetenzen#

Was versteht J.Busse unter Kompetenz? Versuche, den Begriff nicht zu definieren, aber anschaulich zu mahen:

  • Einheit von Kenntnisse plus Fertigkeiten plus Norm/Verantwortung

  • Bestimmte Aufgaben, Handlungsbereiche und auch konkrete Handlungen ausführen können und dürfen, und dafür maßgeblich die Verantwortung übernehmen

  • Kompetenz beinhaltet neben Kenntnissen und Fertigkeiten auch die Erlaubnis, über Ressourcen zu verfügen (und auch darüber Verantwortung abzulegen).

Pointiert:

  • Kenntnisse: Was weiß jemand über X?

  • Fertigkeit: Kann jemand Y?

  • Kompetenz: Was kann jemand, der X weiß und Y kann, verantworten?

Kompetenzen in dsci-101: Sie können mit unserem Technologie-Stack (konkret: im dsci-lab)

  • für einen einfachen Datensatz eine einfache explorative Datenanalyse (EDA) durchführen sowie ein einfaches Machine-Learning (ML) Modell generieren

  • die EDA und das ML-Modell mit Jupyterbook und Zotero wissenschaftlich dokumentieren