DataScience Lab (dsci-lab)

Wir bieten unseren Studierenden zum Download ein *virtuelles Data-Science-Labor* an, in dem in Form einer virtuelle Maschine alles nötige "out of the box" lauffähig vorinstalliert ist: Software, Daten, Lernmedien.

  • Einschalten und loslegen!
  • Wer will kann beliebig herumspielen, auch konfigurieren, dazuinstallieren, ausprobieren - und wer sich verkonfiguriert hat, geht wieder auf "Los" und hat einen wohldefinierten Anfangszustand.
  • Wenn der Dozent selbst in diesem Labor arbeitet (oder er sogar selbst darin konfiguriert hat), kennt er es in- und auswendig, und kann Probleme schnell diagnostizieren - auch weil er weiß, in welcher Umgebung sich der Lerner befindet.

Üblicherweise arbeiten Datascience-Profis unter Linux. Sehr weit verbreitet und auf Enduser zugeschnitten ist das Debian-Derivat Ubuntu, das in unserer Hochschule in dem leichtgewichtigen, auch auf auf langsamen Rechnern noch performanten Flavor Xubuntu zum Einsatz kommt. Konsequenterweise baut auch unser dsci-lab auf Xubuntu auf.

Warum die Software nicht einfach auf dem eigenen Rechner installieren?

Es beginnt damit: Windows oder Linux? Letztlich verwendet man als DataScientist nicht einzelne Software, sondern eine Plattform. Der Profi verwendet Linux. Wir nutzen unsere Veranstaltung, um auch reinen Windows-Nutzern in einer sicheren, geschützten Umgebung gut begleitete erste Erfahrungen mit Ubuntu zu ermöglichen.

Es geht damit weiter: Welches Python verwenden wir? Python 2.7 ist nicht kompatibel mit Python 3.x. Viele Linux-Anwendungen werden intern noch über längere Zeit noch Python 2.7 verwenden, aktuelle DataScience-Bibliotheken haben längst auf Python 3.x umgestellt. Bibliotheken wie scikit-learn oder pandas versionieren halbjährlich.

Die Conda-Python-Distribution bringt für die Versionsverwaltung von Python und Bibliotheken eine eigene Paketverwaltung mit, mit eigener Virtualisierung etc., innerhalb der man untergeordnet mit der konkurrierenden Bibliotheksverwaltung pip Pakete verwalten kann (umgekehrt geht das nicht): Das ist alles nicht ganz trivial.

Auch mit großen und umfassenden Distributionen wie Anaconda alleine ist es nicht wirklich getan: Wer praktisch als DataScientist arbeitet, verwendet in der Regel auch einige andere Tools. Solche, die auch ohne Jupyter Standalone ihre Berechtigung haben, müssen i.A. extra installiert und konfiguriert werden.

Version 2019-10-01

auf dem eigenen Laptop installieren: https://www.virtualbox.org/

  • unter XUbuntu:
    • sudo apt install virtualbox
    • sudo apt install virtualbox-ext-pack

Download: http://www.jbusse.de/vm/xubuntu-dsci-18.04-64bit.ova

  • user: dsci
  • Passwort: gibt es in der Veranstaltung / in der Email

Diese Maschine ggf. selbst zusammenbauen: