DataScience Lab (dsci-lab)

Wir bieten unseren Studierenden zum Download ein *virtuelles Data-Science-Labor* an, in dem in Form einer virtuelle Maschine alles nötige "out of the box" lauffähig vorinstalliert ist: Software, Daten, Lernmedien.

  • Einschalten und loslegen!
  • Wer will kann beliebig herumspielen, auch konfigurieren, dazuinstallieren, ausprobieren - und wer sich verkonfiguriert hat, geht wieder auf "Los" und hat einen wohldefinierten Anfangszustand.
  • Wenn der Dozent selbst in diesem Labor arbeitet (oder er sogar selbst darin konfiguriert hat), kennt er die Arbeitsumgebung der Lernenden so gut, dass er Probleme schnell lösen kann.

Weg 1: OVA-Datei importieren

Schritt 1: Auf dem eigenen Laptop Download VirtualBox (Old Builds): VirtualBox 5.2

  • (NICHT Version 6 installieren, ist nicht ausgereift, kein Mehrwert gegenüber 5.2)
  • Sie haben einen Windows-Rechner?
    • Windows hosts
  • Sie haben einen Mac?
    • OS X hosts
  • Danach noch für alle Plattformen:
    • Extension Pack
  • Sie haben einen Ubuntu-Rechner?
    • sudo apt install virtualbox
    • sudo apt install virtualbox-ext-pack

Schritt 2: Download der OVA-Datei (siehe nächster Top "Versionen")

  • Rechtsklick auf den Link > Ziel speichern unter
    • user: dsci
    • Passwort: gibt es in der Veranstaltung / in der Email
  • Größe der OVA-Datei: 4.2GB (!)
  • ACHTUNG: Manchmal erkennt Win die OVA-Datei als eine ZIP-Datei und macht den Vorschlag, diese auszupacken: NICHT auspacken! Wir brauchen einfach nur die OVA-Datei, wie sie zum Download angeboten wird.

Versionen

  • aktuelle Version 2019-11-19: http://www.jbusse.de/vm/Xubuntu-dsci-18043-32bit.ova
    • neu generiert unter VirtualBox 5.2.34 unter Win10
    • Gast-Erweiterungen für VirtualBox 5.2.34 installiert
  • Version 2019-11-18: defunct
  • Version 2019-10-01: http://www.jbusse.de/vm/xubuntu-dsci-18.04-64bit.ova
    • Gast-Erweiterungen installiert
    • teilweise Installations-Probleme

Schritt 3: Die OVA in Virtualbox importieren

Fertig! Sie können die virtuelle Maschine nun starten und sich in Ubuntu einloggen:

  • user: osboxes.org
  • Passwort: osboxes.org

Alternativer Weg 2: virtuelles Ubuntu selbst zusammenbauen

Sie können den benötigten virtuellen Rechner leicht auch selbst zusammenbauen.

Im Prinzip können Sie ein beliebiges Ubuntu installieren. Wir verwenden XUbuntu:

  • XUbuntu ist auch in den Rechner-Pools der Fak iIF in der HAW LA installiert.
  • Es ist eine besonders schlanke Version, die auch mit klappen Ressourcen gut auskommt - ideal für eine virtuelle Maschine.

lauffähige Grundausstattung 'runterladen: https://www.osboxes.org/xubuntu > Xubuntu 18.04.3 Bionic Beaver

  • Username: osboxes
  • Password: osboxes.org

Pakete installieren: Lesen und sinngemäß anwenden von

Die VM nutzen

ein Terminal öffnen

  • strg-alt-t

im Terminal

  • TAB
    • Auto-Vervollständigung
  • Cursor OBEN
    • vorhergehende Kommandos ausführen
    • (Die letzten 1000 abgesetzten Shell-Befehle werden in der der Datei ~/.bash_history gespeichert.)
  • strg-r
    • inkrementelle Rückwärtssuche

Warum Jupyter etc. nicht einfach auf dem eigenen Rechner installieren?

Es beginnt damit: Windows oder Linux? Letztlich verwendet man als DataScientist nicht einzelne Software, sondern eine Plattform - als Profi Linux. Wir nutzen unsere Veranstaltung, um auch reinen Windows-Nutzern in einer sicheren, geschützten Umgebung gut begleitete erste Erfahrungen mit Linux zu ermöglichen.

Ein weit verbreitetes, weil auf Enduser zugeschnittenes Linux ist das Debian-Derivat Ubuntu, das in unserer Hochschule in dem leichtgewichtigen, auch auf auf langsamen Rechnern noch performanten Flavor Xubuntu zum Einsatz kommt. Konsequenterweise baut auch unser dsci-lab auf Xubuntu auf.

Welches Python verwenden wir? Python 2.7 ist nicht kompatibel mit Python 3.x. Viele Linux-Anwendungen werden intern noch über längere Zeit noch Python 2.7 verwenden, aktuelle DataScience-Bibliotheken haben längst auf Python 3.x umgestellt. Bibliotheken wie scikit-learn oder pandas versionieren halbjährlich.

Die Conda-Python-Distribution bringt für die Versionsverwaltung von Python und Bibliotheken eine eigene Paketverwaltung mit, mit eigener Virtualisierung etc., innerhalb der man untergeordnet mit der konkurrierenden Bibliotheksverwaltung pip Pakete verwalten kann (umgekehrt geht das nicht): Das ist alles nicht ganz trivial.

Der wichtigste Grund, mit der von uns zur Verfügung gestellten virtuellen Maschine zu arbeiten ist aber der:

  • Wir kennen diese Maschine, die installierte Software und die spezifische Konfiguration sehr gut und können deshalb bei Problemen leichter helfen.

Auch mit großen und umfassenden Distributionen wie Anaconda alleine ist es nicht wirklich getan: Wer praktisch als DataScientist arbeitet, verwendet in der Regel auch einige andere Tools. Solche, die auch ohne Jupyter standalone ihre Berechtigung haben, müssen i.A. extra installiert und konfiguriert werden. Auch hier können wir innerhalb der virtuellen Maschine sehr leicht Unterstützung anbieten.