IM970 Data Science (dsci) (WS 2019)

Koordinaten

  • Raum: G0.03 J2.01
  • Mi 14:30-17.40
  • Beginn: 2010-10-02

Moodle:

Inhalte und Kompetenzen

Wesentliches Praxisziel in der Veranstaltung ist es, einen Hands-On-Durchstich zu schaffen:

  • Daten einlesen, Qualität beurteilen
  • feature engineering, data wrangling
  • Lernen eines Modells:
    • Schwerpunkt: Regression mit l1 und l2 Regularisierung
    • Transfer: Klassifikation durch logistische Regression
    • zur Ergänzung: Clustering mit k-NN
  • Beurteilung der Modell-Qualität
  • Vorhersage bei neuen Daten, Modell-Deployment

Die Theorie wird durch Bowles abgedeckt.

Hinweis: Ohne ausreichende englische (Lese-) Sprachkompetenzen können Sie nicht als Data Scientist arbeiten. Auch fast alle unsere Grundlagentexte liegen nur auf Englisch vor (Ausnahme: MLPC, python-data-science-handbook auch auf DE).

Unsere wichtigsten Quellen:

Data Science: The Big Picture Bowles Der Text einer hypothetischen Vorlesung, die dank dieses Buches nicht mehr vom Dozenten gelesen werden muss, sondern jetzt von den Studierenden nachgelesen werden kann.
MLPC verdichteter Kern der praktischen Kompetenzen mit Python
python-data-science-handbook zum Nachlesen für Interessierte, geht über unseren Kurs weit hinaus.
Python Grundlagen python-whirlwind Wir verwenden Python als "Glue-Language". Was man dazu von Python wissen muss ist hier abschließend geklärt.
Bibliotheken pandas, scikit-learn Data wrangling (Daten hüten) und dann einfaches Machine Learning anwenden: Das ist der Kern der Veranstaltung. Hier greifen wir auf die Original-Dokumentation zurück.
Entwicklungsumgebung
anaconda One in all, incl. conda Versionsverwaltung
miniconda kleine, schlanke, in sich stimmige Umgebung. Was man noch braucht kann man leicht selbst nachinstallieren.
github unsere Plattform für den Datenaustausch - und zwar mit privaten Accounts (sorry, es geht nicht anders). Doku: git-book

Bei den Studierenden vorausgesetzte Kompetenzen: Die Studierenden haben (z.B. im ersten Studienjahr eines technischen Studiengangs) bereits eine Einführung in C und/oder in Java erfolgreich abgeschlossen. Sie sind daher in der Lage, von Transfer-Lehrmaterial wie z.B. python-learnxinyminutes oder python-for-java-developers zu profitieren und sich schnell die Grundlagen aus python-whirlwind anzueignen.

Technologie:

  • Python 3
  • Miniconda Anaconda
  • Jupyter Notebooks
  • pandoc

KEINE Themen und Lehrziele in dieser Veranstaltung:

  • Image Processing
  • Neuronale Netze, Deep Learning
  • Zeitreihenanalysen
  • Tensorflow, Spark, Hadoop
  • Inhalte aus der Vorlesung Statistik