dsci 101: Curriculum

Aus dem Modulhandbuch Stand WS 2021 (1)

Qualifikationsziele: Die Studierenden sind mit den Tätigkeiten eines Data Scientist vertraut und können diese erläutern. Sie kennen die einzelnen Prozesschritte der Datenintegration und können diese mit Hilfe geeigneter Bibliotheken implementieren und einsetzen. Sie können zielgerichtet (kleine und große) Datenmengen mit statistischen Methoden analysieren, um Informationen aus den Daten zu gewinnen. Sie verfügen über grundlegende Kenntnisse über das maschinelle Lernen und können diese einsetzen, um einfache Modelle zu trainieren und deren Qualität zu evaluieren. Sie sind mit wichtigen Aspekten der Datenethik und Data Privacy vertraut.

Lehrinhalte

Lehrinhalte in systematischer Anordnung (aber nicht unbedingt in zeitlicher Reihenfolge):

  • Einführung: Was ist Data Science?

  • Eigenschaften von Daten:

    • Big Data vs. Small Data

    • strukturierte / unstrukturierte Daten

    • kategorische / quantitative Daten

  • Deskriptive Statistik, Kausalität und Korrelation

  • Data Mining und Datenintegration

    • Datensammlung

    • Daten-Pipelines

    • Datenvorbereitung

  • Datenethik und Data Privacy

  • Explorative Datenanlyse

  • Maschinelles Lernen (Lineare Regression, k-Nearest Neighbors, k-means)

  • Modell-Evaluierung (Performance Metriken, A/B Tests)

  • Was ist Big Data?

    • Volumen, Variabiliät / Vielfalt, Geschwindigkeit

    • Infrastruktur

    • Parallelismus und Map Reduce

  • Einblicke in das Berufsfeld Data Science / Data Science in Unternehmen: Technology-Stack Markdown, Jupyterbook, Zotero

Didaktik

Es ist nicht nur möglich, sondern erforderlich, die Sach-Inhalte der Veranstaltung aus den Lehrbüchern zu erlernen:

  • Der Lehrstoff wird durch unsere Lehrbücher definiert.

  • In der Vorlesung bespricht J.Busse den durch die Lehrbücher definierten den Lehrstoff, fügt aber keine eigenen Inhalte (Ausnahme: Ethik der KI) hinzu.

  • In der Übung setzen wir exemplarische Aufgaben der Lehrbücher und eigene Aufgaben von J.Busse um.

Wesentliche Aufgabe de Dozenten: Kuratierung der Lehrbücher, Modularisierung des Stoffes, Rhythmisierung des Lernens, Arrangement von gemeinsamen synchronen Lernen einer Gruppe von Lernenden, und vor allem die Herstellung von Aufgaben und vorbereiteten Lernumgebungen.

Kurz: Die Theorie ist in den Lehrbüchern enthalten. Die Veranstaltung besucht man, um sich im Dschungel zu orientieren, und natürlich wegen der Praxis.

Lehrmaterialien als pdf und online

So, Anthony; Joseph, Thomas V.; John, Robert Thas; Worsley, Andrew; Asare, Dr. Samuel: The Data Science Workshop. A New, Interactive Approach to Learning Data Science. Packt Publishing, 2020.

Jupyter Tutorial Release 0.8.0 Veit Schiele (07.07.2021) in DE (!):

Jörg Frochte: Maschinelles Lernen: Grundlagen und Algorithmen in Python.3., überarbeitete und erweiterte Edition, Hanser-Verlag 2020.

Aus dem Modulhandbuch (2)

In der Veranstaltung eignen sich die Studierenden außerdem Technik und Methodiken an, sich komplexe Wissensinhalte - insbesondere unser Skript - zu erschließen, semi-formal zu notieren, in eine konsistente Terminologie zu überführen und alles zusammen in eine Web- oder Druckfassung überführen: Auch das sind im Kern ”praktische” Inhalte der Tätigkeit von Data Scientists.

Konkret erarbeiten sich die Studierenden semi-formale Wissensrepräsentationen in Form von Mindmaps sowie eine in SKOS formulierte Fachterminologie.

Als Plattform für die Dokumentation der einzelnen Wissensrepräsentationen verwenden wir Freeplane und Jupyter Book mit Zotero unter Linux. Die Veranstaltung führt damit auch in das wissenschaftliche Arbeiten ein.