FWPF Text Mining (dsci-txt) SS 2023
Contents
FWPF Text Mining (dsci-txt) SS 2023#
Beginn siehe http://www.jbusse.de/pub/veranstaltungen.html
Moodle:
FWPF Text Mining (SS 2023, Busse), https://moodle.haw-landshut.de/course/view.php?id=3936
Einschreibeschlüssel: Wissenschaft
Inhalte#
Kern:
Bag of Words, tf-idf, Cosinus-Ähnlichkeit
Schwerpunkt SS 2023:
Ähnlichkeit von Dokumenten
Nutzung linguistischer Ressourcen wie z.B. WordNet, BabelNet, Wortschatz Leipzig u.A.
Aspekte:
Formate: unstrukturierter “Plain”-Text; html; XML; json
Quellen: Freitext; Mindmaps; Jupyter Notebooks
Granularität: Bag of Words; 3-Gramme auf Zeichenebene; klassische Metadaten
ggf. Experimente mit WbGPT? Beispiele:
Verschiedene Menschen befragen WebGPT mit einer von drei genau genormten Fragen.
Wie ähnlich sind die Antworten? Können wir die Antworten klassifizieren?
Arbeitsformen#
Seminaristischer Unterricht:
auch Studierende halten einen kleinen Seminarvortrag
und geben den Zuhörern als “Proof of Concept” ein Notebook an die Hand
Übung:
JB führt in lauffähige Jupyter Notebooks ein, z.B. Code
Studierende “spielen” damit, erweitern die Notebooks
Klausur#
TBD
Themen und Termine#
2023-03-16#
Vorbesprechung: Vorkenntnisse der TN bzgl. Python?
ggf. vor Ostern ein Python Repetitorium für Umsteiger?
so könnte man vorgehen: http://jbusse.de/dsci-lab/t_python-lernen.html
Codewars
Einführung in das http://jbusse.de/dsci-lab/start.html: Bitte bis kommende Woche installieren
Fingerübungen mit https://regex101.com/: An was erinnern wir uns? Erkenne im untigen Bsp. z.B.:
nur das Datum
die komplette Veranstaltungs-ID
u.s.w.
Die Veranstaltung mit der Veranstaltungs-ID
127166_2022-06-12T12:00
ist für alle Interessierten offen.
2023-03-23#
JB gibt eine Mini-Intro in Python,
vorstrukturiert anhand von https://jakevdp.github.io/WhirlwindTourOfPython/
vielleicht das wichtigste Kapitel dort: https://jakevdp.github.io/WhirlwindTourOfPython/11-list-comprehensions.html
16:10 Uhr: Besprechung von möglichen Themen für eine Bachelorarbeit in diesem Fach, u.A. http://jbusse.de/pub/projektideen.html#textmining-dsci-txt
2023-03-30#
Fortsetzung der Einführung in Python, Schwerpunkt: Listen und Dicts.
heute: Hic Rhodus, hic salta! am Bsp. von http://jbusse.de/dsci-lab/t_ki150.html
Literatur#
Biemann, Chris; Heyer, Gerhard; Quasthoff, Uwe: Wissensrohstoff Text. Eine Einführung in das Text Mining. Springer / Vieweg, 2., wesentlich überarbeitete Auflage 2022. https://flatp20.bib-bvb.de/search?bvnr=BV048251533