Data Science Lab (dsci-lab)

Data Science Lab von Prof. Dr. Johannes Busse, Fakultät für Informatik, HAW Landshut

Note

Die Seite dsci-lab wird im WS 21 neu aufgebaut. Tote Links, Fehler, Verbesserungsvorschläge sind sehr willkomme: Bitte einfach per email an mich, Danke!

Mit dem dsci-lab steht den Studierenden eine fertig installierte Virtuelle Maschine bereit, in der die für meine Lehre wichtigsten Dats Science Anwendungen, Datensätze und exemplarische Python Notebooks bereits fertig installiert sind - also ein virtuelles Labor “to go”.

Download des dsci-lab:

Veranstaltungen, die das dsci-lab nutzen, finden sich unter http://jbusse.de/2021_ws_dsci/.

Diskussion

Warum Jupyter etc. nicht einfach auf dem eigenen Rechner installieren?

Es beginnt damit: Windows oder Linux? Letztlich verwendet man als DataScientist nicht einzelne Software, sondern eine Plattform, und zwar als Profi Linux. Wir nutzen unsere Veranstaltung, um auch reinen Windows-Nutzern in einer sicheren, geschützten Umgebung gut begleitete erste Erfahrungen mit Linux zu ermöglichen.

  • Ein weit verbreitetes, weil auf Enduser zugeschnittenes Linux ist das Debian-Derivat Ubuntu, das in unserer Hochschule in dem leichtgewichtigen, auch auf auf langsamen Rechnern noch performanten Flavor Xubuntu zum Einsatz kommt. Konsequenterweise baut auch unser dsci-lab auf Xubuntu auf.

Es geht weiter mit: Welches Python verwenden wir? Python 2.7 ist nicht kompatibel mit Python 3.x. Viele Linux-Anwendungen werden intern noch über längere Zeit noch Python 2.7 verwenden, aktuelle DataScience-Bibliotheken haben längst auf Python 3.x umgestellt. Bibliotheken wie scikit-learn oder pandas versionieren halbjährlich.

  • Die Conda-Python-Distribution bringt für die Versionsverwaltung seiner Bibliotheken eine eigene Paketverwaltung mit, mit eigenem Python (!), eigener Virtualisierung etc., innerhalb der man untergeordnet mit der konkurrierenden Bibliotheksverwaltung pip Pakete verwalten kann (umgekehrt geht das nicht): Das ist alles nicht ganz trivial.

Der wichtigste Grund, mit der von uns zur Verfügung gestellten virtuellen Maschine zu arbeiten ist aber der:

  • Wir kennen die die installierte Software und die Konfiguration des dsci-lab sehr gut, und können deshalb bei Problemen leichter helfen.

Auch mit großen und umfassenden Distributionen wie Anaconda alleine ist es nicht wirklich getan: Wer praktisch als DataScientist arbeitet, verwendet in der Regel auch einige andere Tools. Solche, die auch außerhalb von Anaconda ihre eigene Berechtigung haben (z.B. Jupyterbook), müssen i.A. extra installiert und konfiguriert werden. Auch hier können wir innerhalb der virtuellen Maschine sehr leicht Unterstützung anbieten.