# Themen und Termine ## KW 40: Einführung * Begrüßung * empfohlener Zweitrechner für die Hochschule: z.B. ThinkPad X250, IPS-Display matt, 180 GB, refurbished für 400€, Second Hand für 250 € * Unsere Arbeitsumgebung ist das {doc}`dsci-lab`: Bis nächste Woche installieren! ## KW 41 Themen: * Einblicke in das Berufsfeld Data Science / Data Science in Unternehmen. * Einführung in das dsci-lab Ziel: Rollen kennen und beschreiben können. Typische Klausurfragen: KLAUSUR * Was ist die Gemeinsamkeit und der Unterschied zwischen: Data Scientist vs. Data Analyst? Data Engineer vs. Data Architect? Data Engineer vs. Machine Learning Engineer? * Sie sind bereits Experte in ML-Algorithmen. Was brauchen Sie noch, um als Data Engineer arbeiten zu können? Durchführung: {doc}`session-jobs-zotero` ## KW 42 Themen: * Terminologie und Begriffssysteme * Wissensrepräsentationen Vorlesung: * Vortrag JB: [Thesaurus-Grundlagen_2015-01-18.pdf](https://moodle.haw-landshut.de/mod/resource/view.php?id=313718). * Vertiefung zum Unterschied "Benennung (skos:label)" und "Begriff (skos:Concept)" KLAUSUR * Grundidee RDF, URI KLAUSUR * Wissenrepräsentationen: Stichwortverzeichnis, Glossar, Thesaurus, Ontologie KLAUSUR * Vorbereitung Leistungsnachweis: {doc}`dsci-101-ln` * Kornmeier, Martin (2018): Wissenschaftliches Arbeiten leicht gemacht * in Zotero aufnehmen * Wissenschaftliches Zitieren: "7.2.3 Korrekte Zitierweise der verarbeiteten Literatur", incl. den verschiedenen Formen von Plagiaten KLAUSUR Übung: Weiterführung aus KW 41: {doc}`session-jobs-zotero` * Def bauen für den LN, in der MD-Datei * Glossareinträge in Moodle Ergänzung: * Linux bash lernen: z.B. KLAUSUR ## KW 43, 2021-10-28 (1) Mit den Rollen aus dem LN ({ref}`aufgabe-1-dsci-jobs`): * sammeln im Moodle-Glossar für Rollen Wir schauen uns alle Rollen im Bereich dsci an: * sichern im Dokument für den LN * sammeln im Moodle-Glossar für Rollen Die Rollen sind nur ein einfacher erster Anwendungsfall. Wir üben hier, unsere Ergebnisse aus einem Quellen-Studium zu modellieren * als ein Korpus aus semi-strukturierten Texten, die wir mit Methoden der Data-Science wieder analysieren können * als SKOS-Thesaurus ## KW 44, 2021-11-04 Lernziele: * die Begriffe aus dsw2020, Kapitel 1, S. 2-6 kennen KLAUSUR * Begriffe im LN dokumentieren! Elemente: * Einführung in dsw2020, Kapitel 1, S. 2-6: Worum geht es? * ice breaker: Exercise 1.01 (p.13ff) * zugleich auch LN Aufgabe 2: {ref}`dsci-101-ln-aufgabe2` * LN Aufgabe 3: {ref}`dsci-101-ln-aufgabe3` Knifflige Frage: * Unterschied *algorithm* und *algorithm_type*? KLAUSUR * Erweiterung Dezember 2021: Zusammenhang Modelltyp und Datensatztyp? KLAUSUR Übung: Konsolidierung Technik des LN mit jupyterbook & co: * Spätestens jetzt muss alles laufen, * vor allem auch LN Aufgabe 2! * LN Aufgabe 3 kann man auch schon beginnen ## KW 45, 2021-11-11 (1) Methodenwissen: Datenqualität beurteilen, hier am Bsp. {doc}`dsci-101-statur` (2) technisches wissen, Praxis; Ergebnis vor allem LN: * Pandas DataFrame, Series, CSV, JSON (dsw2020 S.17-25) KLAUSUR * dsw2020 Kapitel 10: Analyzing a Dataset (S. 445-497) KLAUSUR (nur in Grundzügen) * LN: {ref}`dsci-101-ln-aufgabe4` KLAUSUR * LN: {ref}`dsci-101-ln-aufgabe5` KLAUSUR ## KW 46, 2021-11-18 (1) Datenportale, Surveys etc: * BRD: * [Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS)](https://www.gesis.org/allbus/allbus) * [Open Government: Verwaltungsdaten transparent, offen und frei nutzbar](https://www.govdata.de/) * andere: * [National Health and Nutrition Examination Survey (NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) * historisch, sehr klein: [!Kung San people](https://de.wikipedia.org/wiki/%C7%83Kung) Dataset, from [McElreath](http://xcelab.net/rm/statistical-rethinking/): (1) EDA zu NHANES, erste Schritte: * * hypothetische (!) Aufgabe: die visuelle EDA zu NHANES z.B. mit [seaborn](https://seaborn.pydata.org/) durchführen: Das lernen Sie im nächsten Semester in *Data Science II (KI210)* (3) Exkurs Wissenschaftstheorie? KLAUSUR Für Akademiker hoch relevant, aber keine Klausurfragen dazu * Unterschied Modell und ... und was? Phänomene der naturwissenschaftlichen Realität, und der sozialen Wirklichkeit * Motivation: Lego-Modell * [non-statement view](https://de.wikipedia.org/wiki/Strukturalistisches_Theorienkonzept), ausführlicher, aber noch verständlich: [Klaus Manhart: Strukturalistische Wissenschaftstheorie. Eine kurze Einführung.](https://www.klaus-manhart.de/mediapool/28/284587/data/07-strukturalismus.pdf) KLAUSUR * Erleben vs. Simulation von Erleben: (auch [youtube](https://www.youtube.com/watch?v=qqUxmFsK_Po)) ## KW 47, 2021-11-25 (1) Organisation von Zusammenarbeit trotz Corona: * Moodle > [Wer wo wann](https://moodle.haw-landshut.de/mod/etherpadlite/view.php?id=320256) * Empfehlung: synchrones Jupyter Notebook von Zuhause aus mit (2) Erläuterungen zu {doc}`Datensatz-Typen`. KLAUSUR ## KW 48, 2021-12-02 (1) Wiederholung KW 43, "Mit den Rollen aus dem LN: Sammeln im Moodle-Glossar für Rollen": * Sammeln im Moodle-Glossar *im Markdown-Format* (!) Ziel: Viele unterschiedliche, selbst formulierte Definitionen zu diesen Rollen * einerseits als Inhalt * und auch als Text-Korpus, als Beispiel für semi-strukturierte Daten im Markdown-Format. Fortführung und fertig machen heute Nachmittag im Praktikum. (2) Demo JB: Explorative Datenanalyse (EDA) Kun San People KLAUSUR (3) kurze Einführung in [freeplane](https://www.freeplane.org/wiki/index.php/Home) * KLAUSUR ## KW 49, 2021-12-09 (1) Wissen als Glossar strukturieren Verwendung von Freeplane, Web-Text, Markdown, am Bsp. von * Vorgehen: Freeplane links, Website + Mousepad rechts Zur Erinnerung: (2) KLAUSUR ## KW 50, 2021-12-16 Themen heute: * (1) The Moral Machine * (2) typische Fehler bei datenbasierter Forschung kennen (1) The Moral Machine: ... Intro JB, "Trolley Problem", Breakout 7 Min: "Was halten Sie von dem, was da passiert?" ... Bericht aus den Breakout-Räumen (2) Fehler und Fakes, Grundlagen 1: * , DE: [Moodle > dsci-biases-de.md](https://moodle.haw-landshut.de/mod/resource/view.php?id=323126): Alle Begriffe sind wichtig, KLAUSUR, und ganz besonders diese hier: * * , DE: Grundlagen 2: Einige auch wissenschaftstheoretisch notorisch komplizierte Begriffe > Terminology, dort insbesondere * Causation * Ludic Fallacy, auch vertiefend * Iatrogenics * Naive Interventionism * Naive Rationalism * Neomania * transparent (EN), opaque (EN) vs. transparent (DE): Vorsicht falsche Freunde! Aufgabe: * Erweitern Sie das Untersuchungs- und Auswertungsdesign Aufgabe aus {ref}`dsci-101-statur`so, dass Sie unter gezieltem Einsatz möglichst vieler Fehler möglichst irreführende pseudo-wissenschaftliche Fake-Ergebnisse erzeugen können. Sie dürfen dazu die Fragen neu formulieren, die Datenerhebung manipulieren, etc. * Dokumentieren Sie Ihre Ergebnisse im Leistungsnachweis ("selbst in eigenen Worten formuliert"). KLAUSUR <-- Weitere interessante Seiten: * --> ## KW 51, 2021-12-23 Aufgrund verschiedener Wünsche der TN findet die Sitzung *asynchron* statt: * statt Vorlesung eignen sich die TN die wesentlichen Inhalte über Youtube-Videos an * Leitfragen von JB beantworten und im LN für die Klausur dokumentieren * Dikussion in der ersten Sitzung im neuen Jahr * keine Übung mehr am Do Nachmittag ### KNN: [Was der kNN (k nearest neighbor) Algorithmus macht (DE)](https://www.youtube.com/watch?v=rNN2aJ8x4xs) * sehr ausführliche Erklärung * incl. [online-Programmierbeispiel auf Google Colab](https://colab.research.google.com/drive/1JAm202LJ7JdoOPwjVfFtm1nwaLeVH7y9): cool! Algorithmus grob erklären können KLAUSUR ### K-means [Clustering: K-means and Hierarchical (EN)](https://www.youtube.com/watch?v=QXOkPvFM6NU) * Tipp: ggf. Wiedergabegeschwindigkeit auf 0.75 reduzieren Algorithmus grob erklären können KLAUSUR ### Die 4 (oder 5 oder 6?) "V" der Data Science * Volume, Variety, Velocity, Veracity, Value, Verity ... sonst noch welche? * * [Standard-Abbildung zu 5V, oft zitiert](https://media.springernature.com/original/springer-static/image/chp%3A10.1007%2F978-3-319-66923-6_26/MediaObjects/456370_1_En_26_Fig4_HTML.gif) Im LN aufschreiben: KLAUSUR * Defs für die verschiedenen V * Erläutern Sie V..., V... und V...; geben Sie je ein Beispiel an * Was ist der Unterschied zwischen V... und V...? ## KW 2, 2022-01-13 Themen heute: * KI und Diskriminierung * Arbeitstechniken: Text als Mindmap zusammenfassen Text: * [Backlink](https://www.plattform-lernende-systeme.de/publikationen-details/kuenstliche-intelligenz-und-diskriminierung-herausforderungen-und-loesungsansaetze.html) > Erarbeitung, Klassiker ist [SQ3R](https://de.wikipedia.org/wiki/SQ3R-Methode). * Problem bei SQ3R: Wo kommen die Q in Schritt 2 her? Ansatz JB: Erst mal über den Text einen ausführlicheren Überblick gewinnen, als das Inhaltsverzeichnis das ermöglicht - insbesondere in einer *Mindmap*, z.B. so: [Mindmap zu Susanne Beck: KI und Diskriminierung](https://moodle.haw-landshut.de/mod/resource/view.php?id=327114) ## KW 2, 2022-01-20 letzte Infos zur Klausur *