dsci 101: Curriculum¶
Aus dem Modulhandbuch Stand WS 2021 (1)¶
Qualifikationsziele: Die Studierenden sind mit den Tätigkeiten eines Data Scientist vertraut und können diese erläutern. Sie kennen die einzelnen Prozesschritte der Datenintegration und können diese mit Hilfe geeigneter Bibliotheken implementieren und einsetzen. Sie können zielgerichtet (kleine und große) Datenmengen mit statistischen Methoden analysieren, um Informationen aus den Daten zu gewinnen. Sie verfügen über grundlegende Kenntnisse über das maschinelle Lernen und können diese einsetzen, um einfache Modelle zu trainieren und deren Qualität zu evaluieren. Sie sind mit wichtigen Aspekten der Datenethik und Data Privacy vertraut.
Lehrinhalte¶
Lehrinhalte in systematischer Anordnung (aber nicht unbedingt in zeitlicher Reihenfolge):
Einführung: Was ist Data Science?
Eigenschaften von Daten:
Big Data vs. Small Data
strukturierte / unstrukturierte Daten
kategorische / quantitative Daten
Deskriptive Statistik, Kausalität und Korrelation
Data Mining und Datenintegration
Datensammlung
Daten-Pipelines
Datenvorbereitung
Datenethik und Data Privacy
Explorative Datenanlyse
Maschinelles Lernen (Lineare Regression, k-Nearest Neighbors, k-means)
Modell-Evaluierung (Performance Metriken, A/B Tests)
Was ist Big Data?
Volumen, Variabiliät / Vielfalt, Geschwindigkeit
Infrastruktur
Parallelismus und Map Reduce
Einblicke in das Berufsfeld Data Science / Data Science in Unternehmen: Technology-Stack Markdown, Jupyterbook, Zotero
Didaktik¶
Es ist nicht nur möglich, sondern erforderlich, die Sach-Inhalte der Veranstaltung aus den Lehrbüchern zu erlernen:
Der Lehrstoff wird durch unsere Lehrbücher definiert.
In der Vorlesung bespricht J.Busse den durch die Lehrbücher definierten den Lehrstoff, fügt aber keine eigenen Inhalte (Ausnahme: Ethik der KI) hinzu.
In der Übung setzen wir exemplarische Aufgaben der Lehrbücher und eigene Aufgaben von J.Busse um.
Wesentliche Aufgabe de Dozenten: Kuratierung der Lehrbücher, Modularisierung des Stoffes, Rhythmisierung des Lernens, Arrangement von gemeinsamen synchronen Lernen einer Gruppe von Lernenden, und vor allem die Herstellung von Aufgaben und vorbereiteten Lernumgebungen.
Kurz: Die Theorie ist in den Lehrbüchern enthalten. Die Veranstaltung besucht man, um sich im Dschungel zu orientieren, und natürlich wegen der Praxis.
Lehrmaterialien als pdf und online¶
So, Anthony; Joseph, Thomas V.; John, Robert Thas; Worsley, Andrew; Asare, Dr. Samuel: The Data Science Workshop. A New, Interactive Approach to Learning Data Science. Packt Publishing, 2020.
Jupyter Tutorial Release 0.8.0 Veit Schiele (07.07.2021) in DE (!):
pdf (DE): https://jupyter-tutorial.readthedocs.io › latest › pdf
html (DE): https://jupyter-tutorial.readthedocs.io/de/latest/
Jörg Frochte: Maschinelles Lernen: Grundlagen und Algorithmen in Python.3., überarbeitete und erweiterte Edition, Hanser-Verlag 2020.
pdf (Ausgabe 2019): https://flatp20.bib-bvb.de/search?bvnr=BV045513809
Code und Übungen: https://joerg.frochte.de/books/
youtube: https://www.youtube.com/playlist?list=PL6L7NwUqXdndNolF0h8Mclo3KINAl69m8
Aus dem Modulhandbuch (2)¶
In der Veranstaltung eignen sich die Studierenden außerdem Technik und Methodiken an, sich komplexe Wissensinhalte - insbesondere unser Skript - zu erschließen, semi-formal zu notieren, in eine konsistente Terminologie zu überführen und alles zusammen in eine Web- oder Druckfassung überführen: Auch das sind im Kern ”praktische” Inhalte der Tätigkeit von Data Scientists.
Konkret erarbeiten sich die Studierenden semi-formale Wissensrepräsentationen in Form von Mindmaps sowie eine in SKOS formulierte Fachterminologie.
Als Plattform für die Dokumentation der einzelnen Wissensrepräsentationen verwenden wir Freeplane und Jupyter Book mit Zotero unter Linux. Die Veranstaltung führt damit auch in das wissenschaftliche Arbeiten ein.