Zertifikats-Modul Data Science 101 (zmds101)

Die Veranstaltung "Data Science 101" führt auf Grundlage von Python in den wichtigsten Zweig der modernen Data Science ein - nämlich die Vorhersage neuer unbekannter Daten auf der Grundlage von bekannten Daten (Machine Learning).

Qualifikationsziele

Das wichtigste Qualifikationsziel besteht darin "mit den eigenen Füßen zu gehen", d.h. Ihnen den Einstieg so zu erleichtern, dass Sie im Anschluss an die Veranstaltung sich das Feld Data Science in eigener Regie weiter erschließen können - und zwar, wie man das heute macht, mit Python (und den Bibliotheken numpy, pandas und scikit-learn).

Zielgruppe

Zielgruppe sind Führungskräfte und Wissensarbeiter, die sich selbst in die Lage versetzen möchten, Datananalysen und -Vorhersagen zukünftig nicht mehr in Excel, sondern in Python durchzuführen.

Inhalte

Verstehen (Theorie):

  • Machine Learning verstehen: Grundbegriffe, CRISP-Workflow, Evaluation
  • Vorhersage von numerischen Werten (lineare Regression), Fehlermaß: Mean Square Error
  • Vorhersage von Klassen (Klassifikation), Fehlermaße: AUC, prediction und recall, f-scores u.A.

Anwenden (praktische Kompetenzen):

  • praktisch umgehen können: Installation und Handhabung von Jupyter Notebooks und Anaconda Python
  • data wrangling ("Daten hüten"): data analysis, cleaning, feature engineering
  • die wichtigsten Machine Learning Tasks selbst durchführen können

Lehrmethoden

Großer Wert wird auf teilnehmeraktivierende Lernmethoden gelegt. Theorie trägt der Dozent nur insoweit vor, dass Praxis möglich wird. Im Zentrum der Lehre steht die betreute Bearbeitung von kleinsten Mikro-Tasks und kleinen Mini-Projekten einzeln oder in Kleingrupen.

Literatur

Chris Albon: Machine Learning Kochbuch: Praktische Lösungen mit Python. O'Reilly 2019

Michael Bowles: Machine Learning in Python: Essential Techniques for Predictive Analysis. Wiley 2015

didaktische Notebooks

Moodle Selbsttests

Datensätze: Titanic, rocks, wine, regression, glass

Voraussetzungen

Wir programmieren unsere Analysen mit Python. Die Veranstaltung ist daraufhin ausgelegt, Python "on the job" zu lernen. Teilnehmern, die bereits eine andere gängige Programmiersprache können (Voraussetzung), fällt dies im allgemeinen nicht schwer.

Die Teilnehmer bringen einen eigenen Laptop mit, auf dem die Virtualisierungs-Software https://www.virtualbox.org/ installiert und ca. 30GB Plattenplatz frei sind.

Im Rahmen der Veranstaltung wird für Virtualbox eine komplett vorinstallierte Linux-Instanz (xubuntu) bereitgestellt, mit der man ohne Stress sofort auf dem eigenen Rechner loslegen kann.

Es genügt Schulmathematik. Darüber hinaus sind keine besonderen Kenntnisse in Statistik erforderlich.