Data Science Einführung (dsci-101)

Dieser Text: Skizze 2021-0424 für eine Veranstaltung "Einführung in Data Science" im Rahmen unseres derzeit in Aufbau befindlichen KI-Studiengangs, zur inhaltlichen Abstimmung mit Kolleg*en und zur Diskussion mit Fachschaftvertreter*n, auch mit Perspektve der Akkreditierung.

Inhalte

Inhalte operationalisiert

Für die Veranstaltung orientieren wir uns an den [GI-Empfehlungen Data Science: Lern- und Ausbildungsinhalte (Dezember 2019)](https://gi.de/fileadmin/GI/Allgemein/PDF/GI_Arbeitspapier_Data-Science_2019-12_01.pdf) (Backlink: <https://gi.de/meldung/gi-veroeffentlicht-arbeitspapier-zu-data-science-lern-und-ausbildungsinhalten>), und decken insbesondere die folgenden Items auf dem Niveau L1 ab:

(8) Datenintegration.

  • Datensammlung
    • Datenquellen (Social Media, User Generated, Suchmaschinen, Kaggle etc.)
  • Daten-Pipelines
    • Strukturierte/Unstrukturierte Daten
    • ETL: Extraktion, Transformation, Laden
    • Data Flow -> Verweis
    • Infrastructure and Tools (Kafka, MLFlow, Cloud Dataflow, AWS Pipelines etc.) -> Verweise
  • Datenvorbereitung
    • Data Quality, Data Curation etc.
      • -> im Detail dann EDA, s.u.
    • Data-Wrangling/-Transformation/-Cleaning, Anomaly Detection
    • Basic Labelling/Aggregation, Analytics, Metrics, Segmentation
    • Feature Selection/Extraction, Training Sets etc.

(6) Datenethik und Data Privacy.

  • Datenethik
  • Data Privacy & Data Compliance
  • Rechtlicher Rahmen ( DSGVO etc. ) -> Verweis

(7) Data Governance.

  • Data Policy
  • Metadatenmanagement
  • Strukturen und Verantwortlichkeiten -> Verweis

Explorative Datenanalyse (EDA).

(9) Datenvisualisierung.

  • nur sehr exemplarisch am Bsp. Seaborn, ansonsten -> Verweis

(10) Data Mining.

  • DM KDD Process (Knowledge Discovery in Databases)
  • DM IR Methods
  • DM Reporting
  • DM Text-, Web-, Process-Mining
  • Time Series Analytics -> Verweis

(14) Data Science in der Organisation (im Kontext).

  • -> Verweise

Kompetenzen

In der Veranstaltung eignen sich die Studierenden außerdem Technik und Methodiken an, sich komplexe Wissensinhalte - insbesondere unser Skript - zu erschließen, semi-formal zu notieren, in eine konsistente Terminologie zu überführen und alles zusammen in eine Web- oder Druckfassung überführen: Auch das sind im Kern "praktische" Inhalte der Tätigkeit von Data Scientists.

  • Konkret erarbeiten sich die Studierenden semi-formale Wissensrepräsentationen in Form von Mindmaps sowie eine in SKOS formulierte Fachterminologie.
  • Als Plattform für die Dokumentation der einzelnen Wissensrepräsentationen verwenden wir [Freeplane](https://www.freeplane.org/wiki/index.php/Home) und [jupyterbook](https://jupyterbook.org/intro.html) mit <https://www.zotero.org/> unter Linux.
  • Die Veranstaltung führt damit auch in das Wissenschaftliche Arbeiten ein.

Methoden und Medien

Die Veranstaltung wird seminaristisch im Inverted Classroom Format durchgeführt.

Die in der Veranstaltung benötigte Software wird ready-to-run in Form in einer virtuellen XUbuntu-Maschine unter [Oracle VirtualBox](https://www.virtualbox.org/) zur Verfügung gestellt. Minimale Hardware-Voraussetzung ist ein leidlich moderner Laptop mit >50GB freier Plattenkapazität.

Literatur

Basisliteratur, als pdf in der Bibliothek verfügbar:

  • Alan Said, Vicenç Torra (Ed.): Data Science in Practice. Springer 2019
  • Kornmeier: Wissenschaftliches Arbeiten leicht gemacht, 2018

Ergänzende Literatur wird nach Bedarf aus dem Web ergänzt.