Themen und Termine¶
KW 40: Einführung¶
Begrüßung
empfohlener Zweitrechner für die Hochschule: z.B. ThinkPad X250, IPS-Display matt, 180 GB, refurbished für 400€, Second Hand für 250 €
Unsere Arbeitsumgebung ist das dsci-lab: Bis nächste Woche installieren!
KW 41¶
Themen:
Einblicke in das Berufsfeld Data Science / Data Science in Unternehmen.
Einführung in das dsci-lab
Ziel: Rollen kennen und beschreiben können. Typische Klausurfragen: KLAUSUR
Was ist die Gemeinsamkeit und der Unterschied zwischen: Data Scientist vs. Data Analyst? Data Engineer vs. Data Architect? Data Engineer vs. Machine Learning Engineer?
Sie sind bereits Experte in ML-Algorithmen. Was brauchen Sie noch, um als Data Engineer arbeiten zu können?
Durchführung: Technology-Stack Markdown, Jupyterbook, Zotero
KW 42¶
Themen:
Terminologie und Begriffssysteme
Wissensrepräsentationen
Vorlesung:
Vortrag JB: Thesaurus-Grundlagen_2015-01-18.pdf.
Vertiefung zum Unterschied “Benennung (skos:label)” und “Begriff (skos:Concept)” KLAUSUR
Grundidee RDF, URI KLAUSUR
Wissenrepräsentationen: Stichwortverzeichnis, Glossar, Thesaurus, Ontologie KLAUSUR
Vorbereitung Leistungsnachweis: dsci 101 Leistungsnachweis
Kornmeier, Martin (2018): Wissenschaftliches Arbeiten leicht gemacht
in Zotero aufnehmen
Wissenschaftliches Zitieren: “7.2.3 Korrekte Zitierweise der verarbeiteten Literatur”, incl. den verschiedenen Formen von Plagiaten KLAUSUR
Übung: Weiterführung aus KW 41: Technology-Stack Markdown, Jupyterbook, Zotero
Def bauen für den LN, in der MD-Datei
Glossareinträge in Moodle
Ergänzung:
Linux bash lernen: z.B. https://www.ernstlx.com/linux90bash.html KLAUSUR
KW 43, 2021-10-28¶
(1) Mit den Rollen aus dem LN (Aufgabe 1: dsci-Jobs):
sammeln im Moodle-Glossar für Rollen
Wir schauen uns alle Rollen im Bereich dsci an:
sichern im Dokument für den LN
sammeln im Moodle-Glossar für Rollen
Die Rollen sind nur ein einfacher erster Anwendungsfall. Wir üben hier, unsere Ergebnisse aus einem Quellen-Studium zu modellieren
als ein Korpus aus semi-strukturierten Texten, die wir mit Methoden der Data-Science wieder analysieren können
als SKOS-Thesaurus
KW 44, 2021-11-04¶
Lernziele:
die Begriffe aus dsw2020, Kapitel 1, S. 2-6 kennen KLAUSUR
Begriffe im LN dokumentieren!
Elemente:
Einführung in dsw2020, Kapitel 1, S. 2-6: Worum geht es?
ice breaker: Exercise 1.01 (p.13ff)
zugleich auch LN Aufgabe 2: Aufgabe 2
LN Aufgabe 3: Aufgabe 3: Glossar anlegen zu dsw2020, Kapitel 1, S. 2-16
Knifflige Frage:
Unterschied algorithm und algorithm_type? KLAUSUR
Erweiterung Dezember 2021: Zusammenhang Modelltyp und Datensatztyp? KLAUSUR
Übung: Konsolidierung Technik des LN mit jupyterbook & co:
Spätestens jetzt muss alles laufen,
vor allem auch LN Aufgabe 2!
LN Aufgabe 3 kann man auch schon beginnen
KW 45, 2021-11-11¶
(1) Methodenwissen: Datenqualität beurteilen, hier am Bsp. Statur einer Person
(2) technisches wissen, Praxis; Ergebnis vor allem LN:
Pandas DataFrame, Series, CSV, JSON (dsw2020 S.17-25) KLAUSUR
dsw2020 Kapitel 10: Analyzing a Dataset (S. 445-497) KLAUSUR (nur in Grundzügen)
LN: Aufgabe 4: Mini-Doku zu Pandas DataFrame KLAUSUR
LN: Aufgabe 5: Einen Datensatz bereinigen KLAUSUR
KW 46, 2021-11-18¶
(1) Datenportale, Surveys etc:
BRD:
andere:
historisch, sehr klein: !Kung San people Dataset, from McElreath: https://raw.githubusercontent.com/rmcelreath/rethinking/master/data/Howell1.csv
(1) EDA zu NHANES, erste Schritte:
https://thomaselove.github.io/2018-431-book/dataviz.html#the-nhanes-data-collecting-a-sample
hypothetische (!) Aufgabe: die visuelle EDA zu NHANES z.B. mit seaborn durchführen: Das lernen Sie im nächsten Semester in Data Science II (KI210)
(3) Exkurs Wissenschaftstheorie? KLAUSUR Für Akademiker hoch relevant, aber keine Klausurfragen dazu
Unterschied Modell und … und was? Phänomene der naturwissenschaftlichen Realität, und der sozialen Wirklichkeit
Motivation: Lego-Modell
non-statement view, ausführlicher, aber noch verständlich: Klaus Manhart: Strukturalistische Wissenschaftstheorie. Eine kurze Einführung.
KLAUSUR
Erleben vs. Simulation von Erleben: https://www.michaelgilbert.fr/facshuman/ (auch youtube)
KW 47, 2021-11-25¶
(1) Organisation von Zusammenarbeit trotz Corona:
Moodle > Wer wo wann
Empfehlung: synchrones Jupyter Notebook von Zuhause aus mit https://cocalc.com/
(2) Erläuterungen zu Datensatz-Typen. KLAUSUR
KW 48, 2021-12-02¶
(1) Wiederholung KW 43, “Mit den Rollen aus dem LN: Sammeln im Moodle-Glossar für Rollen”:
Sammeln im Moodle-Glossar im Markdown-Format (!)
Ziel: Viele unterschiedliche, selbst formulierte Definitionen zu diesen Rollen
einerseits als Inhalt
und auch als Text-Korpus, als Beispiel für semi-strukturierte Daten im Markdown-Format.
Fortführung und fertig machen heute Nachmittag im Praktikum.
(2) Demo JB: Explorative Datenanalyse (EDA) Kun San People KLAUSUR
(3) kurze Einführung in freeplane
KW 49, 2021-12-09¶
(1) Wissen als Glossar strukturieren
Verwendung von Freeplane, Web-Text, Markdown, am Bsp. von
Vorgehen: Freeplane links, Website + Mousepad rechts
Zur Erinnerung: https://jupyterbook.org/content/content-blocks.html#glossaries
(2)
http://jbusse.de/2019_ws_dsci/Vortrag_GdW_2019-11-28.html KLAUSUR
KW 50, 2021-12-16¶
Themen heute:
(1) The Moral Machine
(2) typische Fehler bei datenbasierter Forschung kennen
(1) The Moral Machine: http://www.jbusse.de/2020_ws_gdw/kw02.html … Intro JB, “Trolley Problem”, Breakout 7 Min: “Was halten Sie von dem, was da passiert?” … Bericht aus den Breakout-Räumen
(2) Fehler und Fakes, Grundlagen 1:
http://www.datascienceassn.org/content/data-scientists-sometimes-fool-themselves-0, DE: Moodle > dsci-biases-de.md: Alle Begriffe sind wichtig, KLAUSUR, und ganz besonders diese hier:
https://en.wikipedia.org/wiki/Data_dredging, DE: https://de.wikipedia.org/wiki/P-Hacking
Grundlagen 2: Einige auch wissenschaftstheoretisch notorisch komplizierte Begriffe http://www.datascienceassn.org/code-of-conduct.html > Terminology, dort insbesondere
Causation
Ludic Fallacy, auch vertiefend https://www.logicallyfallacious.com/logicalfallacies/Ludic-Fallacy
Iatrogenics
Naive Interventionism
Naive Rationalism
Neomania
transparent (EN), opaque (EN) vs. transparent (DE): Vorsicht falsche Freunde!
Aufgabe:
Erweitern Sie das Untersuchungs- und Auswertungsdesign Aufgabe aus dsci-101-staturso, dass Sie unter gezieltem Einsatz möglichst vieler Fehler möglichst irreführende pseudo-wissenschaftliche Fake-Ergebnisse erzeugen können. Sie dürfen dazu die Fragen neu formulieren, die Datenerhebung manipulieren, etc.
Dokumentieren Sie Ihre Ergebnisse im Leistungsnachweis (“selbst in eigenen Worten formuliert”). KLAUSUR
<– Weitere interessante Seiten:
KW 51, 2021-12-23¶
Aufgrund verschiedener Wünsche der TN findet die Sitzung asynchron statt:
statt Vorlesung eignen sich die TN die wesentlichen Inhalte über Youtube-Videos an
Leitfragen von JB beantworten und im LN für die Klausur dokumentieren
Dikussion in der ersten Sitzung im neuen Jahr
keine Übung mehr am Do Nachmittag
KNN:¶
Was der kNN (k nearest neighbor) Algorithmus macht (DE)
sehr ausführliche Erklärung
incl. online-Programmierbeispiel auf Google Colab: cool!
Algorithmus grob erklären können KLAUSUR
K-means¶
Clustering: K-means and Hierarchical (EN)
Tipp: ggf. Wiedergabegeschwindigkeit auf 0.75 reduzieren
Algorithmus grob erklären können KLAUSUR
Die 4 (oder 5 oder 6?) “V” der Data Science¶
Volume, Variety, Velocity, Veracity, Value, Verity … sonst noch welche?
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
Im LN aufschreiben: KLAUSUR
Defs für die verschiedenen V
Erläutern Sie V…, V… und V…; geben Sie je ein Beispiel an
Was ist der Unterschied zwischen V… und V…?
KW 2, 2022-01-13¶
Themen heute:
KI und Diskriminierung
Arbeitstechniken: Text als Mindmap zusammenfassen
Text:
Backlink > https://www.plattform-lernende-systeme.de/publikationen-details/kuenstliche-intelligenz-und-diskriminierung-herausforderungen-und-loesungsansaetze.html?file=files/Downloads/Publikationen/AG3_Whitepaper_250619.pdf
Erarbeitung, Klassiker ist SQ3R.
Problem bei SQ3R: Wo kommen die Q in Schritt 2 her?
Ansatz JB: Erst mal über den Text einen ausführlicheren Überblick gewinnen, als das Inhaltsverzeichnis das ermöglicht - insbesondere in einer Mindmap, z.B. so: Mindmap zu Susanne Beck: KI und Diskriminierung