# Data Science Lab (dsci-lab) Data Science Lab von Prof. Dr. Johannes Busse, Fakultät für Informatik, HAW Landshut * Version SS 2022, 2022-02-27 :::{note} Die Seite `dsci-lab` wird jedes Semester neu aufgebaut. Hinweise auf tote Links, Fehler, Verbesserungsvorschläge etc. sind willkommen, bitte einfach email an mich. Danke! ::: Mit dem `dsci-lab` steht den Studierenden eine fertig installierte Virtuelle Maschine bereit, in der die für meine Lehre wichtigsten Dats Science Anwendungen, Datensätze und exemplarische Python Notebooks bereits fertig installiert sind - also ein virtuelles Labor "to go". Download des dsci-lab: * ## Diskussion Warum Jupyter etc. nicht einfach auf dem eigenen Rechner installieren? Es beginnt damit: Windows oder Linux? Letztlich verwendet man als DataScientist nicht einzelne Software, sondern eine Plattform, und zwar als Profi Linux. Wir nutzen unsere Veranstaltung, um auch reinen Windows-Nutzern in einer sicheren, geschützten Umgebung gut begleitete erste Erfahrungen mit Linux zu ermöglichen. * Ein weit verbreitetes, weil auf Enduser zugeschnittenes Linux ist das Debian-Derivat Ubuntu, das in unserer Hochschule in dem leichtgewichtigen, auch auf auf langsamen Rechnern noch performanten Flavor Xubuntu zum Einsatz kommt. Konsequenterweise baut auch unser dsci-lab auf Xubuntu auf. Es geht weiter mit: Welches Python verwenden wir? Python 2.7 ist nicht kompatibel mit Python 3.x. Viele Linux-Anwendungen werden intern noch über längere Zeit noch Python 2.7 verwenden, aktuelle DataScience-Bibliotheken haben längst auf Python 3.x umgestellt. Bibliotheken wie scikit-learn oder pandas versionieren halbjährlich. * Die Conda-Python-Distribution bringt für die Versionsverwaltung seiner Bibliotheken eine eigene Paketverwaltung mit, mit eigenem Python (!), eigener Virtualisierung etc., innerhalb der man untergeordnet mit der konkurrierenden Bibliotheksverwaltung pip Pakete verwalten kann (umgekehrt geht das nicht): Das ist alles nicht ganz trivial. Der wichtigste Grund, mit der von uns zur Verfügung gestellten virtuellen Maschine zu arbeiten ist aber der: * Wir kennen die die installierte Software und die Konfiguration des dsci-lab sehr gut, und können deshalb bei Problemen leichter helfen. Auch mit großen und umfassenden Distributionen wie Anaconda alleine ist es nicht wirklich getan: Wer praktisch als DataScientist arbeitet, verwendet in der Regel auch einige andere Tools. Solche, die auch außerhalb von Anaconda ihre eigene Berechtigung haben (z.B. Jupyterbook), müssen i.A. extra installiert und konfiguriert werden. Auch hier können wir innerhalb der virtuellen Maschine sehr leicht Unterstützung anbieten.