Data Science Einführung (dsci-101)
Dieser Text: Skizze 2021-0424 für eine Veranstaltung "Einführung in Data Science" im Rahmen unseres derzeit in Aufbau befindlichen KI-Studiengangs, zur inhaltlichen Abstimmung mit Kolleg*en und zur Diskussion mit Fachschaftvertreter*n, auch mit Perspektve der Akkreditierung.
Inhalte
Inhalte operationalisiert
Für die Veranstaltung orientieren wir uns an den [GI-Empfehlungen Data Science: Lern- und Ausbildungsinhalte (Dezember 2019)](https://gi.de/fileadmin/GI/Allgemein/PDF/GI_Arbeitspapier_Data-Science_2019-12_01.pdf) (Backlink: <https://gi.de/meldung/gi-veroeffentlicht-arbeitspapier-zu-data-science-lern-und-ausbildungsinhalten>), und decken insbesondere die folgenden Items auf dem Niveau L1 ab:
(8) Datenintegration.
- Datensammlung
- Datenquellen (Social Media, User Generated, Suchmaschinen, Kaggle etc.)
- Daten-Pipelines
- Strukturierte/Unstrukturierte Daten
- ETL: Extraktion, Transformation, Laden
- Data Flow -> Verweis
- Infrastructure and Tools (Kafka, MLFlow, Cloud Dataflow, AWS Pipelines etc.) -> Verweise
- Datenvorbereitung
- Data Quality, Data Curation etc.
- -> im Detail dann EDA, s.u.
- Data-Wrangling/-Transformation/-Cleaning, Anomaly Detection
- Basic Labelling/Aggregation, Analytics, Metrics, Segmentation
- Feature Selection/Extraction, Training Sets etc.
- Data Quality, Data Curation etc.
(6) Datenethik und Data Privacy.
- Datenethik
- Data Privacy & Data Compliance
- Rechtlicher Rahmen ( DSGVO etc. ) -> Verweis
(7) Data Governance.
- Data Policy
- Metadatenmanagement
- Strukturen und Verantwortlichkeiten -> Verweis
Explorative Datenanalyse (EDA).
(9) Datenvisualisierung.
- nur sehr exemplarisch am Bsp. Seaborn, ansonsten -> Verweis
(10) Data Mining.
- DM KDD Process (Knowledge Discovery in Databases)
- DM IR Methods
- DM Reporting
- DM Text-, Web-, Process-Mining
- Time Series Analytics -> Verweis
(14) Data Science in der Organisation (im Kontext).
- -> Verweise
Kompetenzen
In der Veranstaltung eignen sich die Studierenden außerdem Technik und Methodiken an, sich komplexe Wissensinhalte - insbesondere unser Skript - zu erschließen, semi-formal zu notieren, in eine konsistente Terminologie zu überführen und alles zusammen in eine Web- oder Druckfassung überführen: Auch das sind im Kern "praktische" Inhalte der Tätigkeit von Data Scientists.
- Konkret erarbeiten sich die Studierenden semi-formale Wissensrepräsentationen in Form von Mindmaps sowie eine in SKOS formulierte Fachterminologie.
- Als Plattform für die Dokumentation der einzelnen Wissensrepräsentationen verwenden wir [Freeplane](https://www.freeplane.org/wiki/index.php/Home) und [jupyterbook](https://jupyterbook.org/intro.html) mit <https://www.zotero.org/> unter Linux.
- Die Veranstaltung führt damit auch in das Wissenschaftliche Arbeiten ein.
Methoden und Medien
Die Veranstaltung wird seminaristisch im Inverted Classroom Format durchgeführt.
Die in der Veranstaltung benötigte Software wird ready-to-run in Form in einer virtuellen XUbuntu-Maschine unter [Oracle VirtualBox](https://www.virtualbox.org/) zur Verfügung gestellt. Minimale Hardware-Voraussetzung ist ein leidlich moderner Laptop mit >50GB freier Plattenkapazität.
Literatur
Basisliteratur, als pdf in der Bibliothek verfügbar:
- Alan Said, Vicenç Torra (Ed.): Data Science in Practice. Springer 2019
- Kornmeier: Wissenschaftliches Arbeiten leicht gemacht, 2018
Ergänzende Literatur wird nach Bedarf aus dem Web ergänzt.