FWPF Text Mining (dsci-txt) SS 2023
Contents
FWPF Text Mining (dsci-txt) SS 2023#
Beginn siehe http://www.jbusse.de/pub/veranstaltungen.html
Moodle:
FWPF Text Mining (SS 2023, Busse), https://moodle.haw-landshut.de/course/view.php?id=3936
Einschreibeschlüssel: Wissenschaft
Inhalte#
Kern:
Bag of Words, tf-idf, Cosinus-Ähnlichkeit
Schwerpunkt SS 2023:
Ähnlichkeit von Dokumenten
Nutzung linguistischer Ressourcen wie z.B. WordNet, BabelNet, Wortschatz Leipzig u.A.
Aspekte:
Formate: unstrukturierter “Plain”-Text; html; XML; json
Quellen: Freitext; Mindmaps; Jupyter Notebooks
Granularität: Bag of Words; 3-Gramme auf Zeichenebene; klassische Metadaten
ggf. Experimente mit WbGPT? Beispiele:
Verschiedene Menschen befragen WebGPT mit einer von drei genau genormten Fragen.
Wie ähnlich sind die Antworten? Können wir die Antworten klassifizieren?
Arbeitsformen#
Seminaristischer Unterricht:
auch Studierende halten einen kleinen Seminarvortrag
und geben den Zuhörern als “Proof of Concept” ein Notebook an die Hand
Übung:
JB führt in lauffähige Jupyter Notebooks ein, z.B. Code
Studierende “spielen” damit, erweitern die Notebooks
Klausur#
TBD
Themen und Termine#
2023-03-16#
Vorbesprechung: Vorkenntnisse der TN bzgl. Python?
ggf. vor Ostern ein Python Repetitorium für Umsteiger?
so könnte man vorgehen: http://jbusse.de/dsci-lab/t_python-lernen.html
Codewars
Einführung in das http://jbusse.de/dsci-lab/start.html: Bitte bis kommende Woche installieren
Fingerübungen mit https://regex101.com/: An was erinnern wir uns? Erkenne im untigen Bsp. z.B.:
nur das Datum
die komplette Veranstaltungs-ID
u.s.w.
Die Veranstaltung mit der Veranstaltungs-ID
127166_2022-06-12T12:00
ist für alle Interessierten offen.
2023-03-23#
JB gibt eine Mini-Intro in Python,
vorstrukturiert anhand von https://jakevdp.github.io/WhirlwindTourOfPython/
vielleicht das wichtigste Kapitel dort: https://jakevdp.github.io/WhirlwindTourOfPython/11-list-comprehensions.html
16:10 Uhr: Besprechung von möglichen Themen für eine Bachelorarbeit in diesem Fach, u.A. http://jbusse.de/pub/projektideen.html#textmining-dsci-txt
2023-03-30#
Fortsetzung der Einführung in Python, Schwerpunkt: Listen und Dicts.
heute: Hic Rhodus, hic salta! am Bsp. von http://jbusse.de/dsci-lab/t_ki150.html
2023-04-07: Gründonnerstag, kein Unterricht
2023-04-13#
Praxis heute:
Einführung in den 20 Newsgroups Korpus. Technik: 20 Newsgoups: Intro
Bag of Words, nützliche Tools: 2022-05-14
Hausaufgabe bis kommende Woche:
Videos unter cosine text similarity gucken und verstehen
Nachlesen: Kap. 5.3. „Kookkurrenzen“ in Biemann, Heyer, Quasthoff: Wissensrohstoff Text
Ich gehe davon aus, dass die Hausaufgabe gemacht ist – andernfalls ist eine sinnvolle weitere Teilnahme an der Veranstaltung nicht möglich. (!)
2023-04-20#
Wir erstellen aus einem einfachen Textkorpus einen Bag of Words. Download und Einlesen der Dateien, Notebook:
Aufgabe heute:
in eine “gesäuberte” Liste von Wortlisten überführen (vgl. Übung vergangene Sitzung)
dann berechnen: tf, idf, tf-idf, ggf. durch Dokumentlänge normiert.
Minimalziel heutige Sitzung: Die Konzepte verstehen; Maximalziel: im Idealfall selbst die Größen nachprogrammieren können.
Dazu die Formeln und Algorithem googeln, stackexchange.com, Tutorials
das muss doch mit wenigen Zeilen ganz gut zu machen sein?
Lösung in der Praxis später natürlich: Bibliotheken; Nutzung z.B. Cosinus Ähnlichkeit, Markdown
2023-04-27#
bezogen auf Bag of Words erstellen
Minimalziel: im Detail lesen können (Lese-Verständnis)
Notebook anpassen (Normalziel): statt absoluten Zahlen Matrix aus tf-idf erstellen - auch normiert mit Dokumentenlänge
Statt einem Bag of Words einen bag of character n-grams erstellen: Für z.B.
n = 3
wird “Hallo” repräsentiert durch die (Pseudo-) Wörter “hal”, “all”, “llo”.
Kommende Woche ist wegen Dienstreise keine Veranstaltung (wird nachgeholt). Bitte eignen Sie sich eigenständig die Grundlagen der logistischen Regression (keine Regressions-, sondern eine Klassifikations-Methode!) an:
bereits bekannt aus Statistik (ggf. nochmal anschauen): Varianz
Correlation and Regression Analysis: Learn Everything With Examples (EN)
2023-05-11#
2023-05-18: Christi Himmelfahrt
2023-05-25#
Vorstellung Bachelorarbeit N.N.
2023-05-30: Raum J1.07#
Wegen dem STUV-Sommerfest sind wir im Raum J1.07
Notebook:
Aufgabe: Bibliothek für char-ngramme?
2023-06-08: Kein Untericht wegen Fronleichnahm
2023-06-15: verschoben auf 2023-06-14 und 2023-06-16#
Kein dsci-txt am Do 2023-06-15 wegen Dienstreise!
Weil die Stundenpläne verschieden sind, gibt es zwei Ausweichtermine. An beiden Terminen mache ich den gleichen Unterricht, Sie können also wählen (und gerne auch bei beiden Terminen dabei sein):
Termin 1: Mi 2023-06-14, 16:10 – 17:40
Termin 2: Fr 2023-06-16, 8:45 – 10:15
ZOOM wie immer, siehe Moodle
Thema an den 2 Ausweichterminen: Einführung in die dsci-txt Studienarbeit SS 2023
2023-06-22#
Nochmals Besprechung der Aufgabenstellung der dsci-txt Studienarbeit SS 2023
Hintergrundwissen zur Studienarbeit:
Mikro-Einführung in RDF
govdata mit SPARQL anfragen
aus Python heraus: http://jbusse.de/logd/govdata-sparql.html
Welche RDF-Tripel gibt es bei govdata, was können wir sinnvoll anfragen? Das beantwortet uns der zugehörige Standard https://www.dcat-ap.de/def/
So macht das übrigens Bertelsmann: https://github.com/bertelsmannstift/Musterdatenkatalog
MONTAG 2023-06-26, 8:00 Uhr DIGITAL#
JB steht in Zoom für Nachfragen zur Studienarbeit zur Verfügung
ab 08:00 Uhr vorzugsweise für solche Studierende, die um 8:45 Uhr ein anderes Praktikum haben
ab 08:45 Uhr für die restlichen Studierenden
wir hatten ja heute (Mo) morgen Gelenheit zu Nachfragen zur Studienarbeit. Folgendes wurde besprochen:
Abgabe: eigentlich letzter Vorlesungstag. Aber weil ich am Wochenende nicht korrigiere, haben Sie gerne 2 Tage Karenzzeit: letzte Abgabe also Sonntag 2023-07-09 Mitternacht
2023-06-29 keine Veranstaltung wegen Dienstreise (verlegt auf MONTAG 2023-06-26, 8:00 Uhr DIGITAL)
2023-07-07#
14:30 Uhr letztes Feedback per Zoom (einfach vorher schon auf Moodle hochladen)
Abgabe bis So Abend auf Moodle: Abgabe Studienprojekt SS 2023 bis So abend, 2023-07-09
Literatur#
Biemann, Chris; Heyer, Gerhard; Quasthoff, Uwe: Wissensrohstoff Text. Eine Einführung in das Text Mining. Springer / Vieweg, 2., wesentlich überarbeitete Auflage 2022. https://flatp20.bib-bvb.de/search?bvnr=BV048251533