FWPF Text Mining (dsci-txt) SS 2023#

Beginn siehe http://www.jbusse.de/pub/veranstaltungen.html

Moodle:

Inhalte#

Kern:

  • Bag of Words, tf-idf, Cosinus-Ähnlichkeit

Schwerpunkt SS 2023:

  • Ähnlichkeit von Dokumenten

  • Nutzung linguistischer Ressourcen wie z.B. WordNet, BabelNet, Wortschatz Leipzig u.A.

Aspekte:

  • Formate: unstrukturierter “Plain”-Text; html; XML; json

  • Quellen: Freitext; Mindmaps; Jupyter Notebooks

  • Granularität: Bag of Words; 3-Gramme auf Zeichenebene; klassische Metadaten

ggf. Experimente mit WbGPT? Beispiele:

  • Verschiedene Menschen befragen WebGPT mit einer von drei genau genormten Fragen.

  • Wie ähnlich sind die Antworten? Können wir die Antworten klassifizieren?

Arbeitsformen#

Seminaristischer Unterricht:

  • auch Studierende halten einen kleinen Seminarvortrag

  • und geben den Zuhörern als “Proof of Concept” ein Notebook an die Hand

Übung:

  • JB führt in lauffähige Jupyter Notebooks ein, z.B. Code

  • Studierende “spielen” damit, erweitern die Notebooks

Klausur#

TBD

Themen und Termine#

2023-03-16#

Vorbesprechung: Vorkenntnisse der TN bzgl. Python?

Einführung in das http://jbusse.de/dsci-lab/start.html: Bitte bis kommende Woche installieren

Fingerübungen mit https://regex101.com/: An was erinnern wir uns? Erkenne im untigen Bsp. z.B.:

  • nur das Datum

  • die komplette Veranstaltungs-ID

  • u.s.w.

Die Veranstaltung mit der Veranstaltungs-ID 
127166_2022-06-12T12:00 
ist für alle Interessierten offen.

2023-03-23#

JB gibt eine Mini-Intro in Python,

16:10 Uhr: Besprechung von möglichen Themen für eine Bachelorarbeit in diesem Fach, u.A. http://jbusse.de/pub/projektideen.html#textmining-dsci-txt

2023-03-30#

Fortsetzung der Einführung in Python, Schwerpunkt: Listen und Dicts.

2023-04-07: Gründonnerstag, kein Unterricht

2023-04-13#

Praxis heute:

Hausaufgabe bis kommende Woche:

  • Videos unter cosine text similarity gucken und verstehen

  • Nachlesen: Kap. 5.3. „Kookkurrenzen“ in Biemann, Heyer, Quasthoff: Wissensrohstoff Text

Ich gehe davon aus, dass die Hausaufgabe gemacht ist – andernfalls ist eine sinnvolle weitere Teilnahme an der Veranstaltung nicht möglich. (!)

2023-04-20#

Wir erstellen aus einem einfachen Textkorpus einen Bag of Words. Download und Einlesen der Dateien, Notebook:

Aufgabe heute:

  • in eine “gesäuberte” Liste von Wortlisten überführen (vgl. Übung vergangene Sitzung)

  • dann berechnen: tf, idf, tf-idf, ggf. durch Dokumentlänge normiert.

Minimalziel heutige Sitzung: Die Konzepte verstehen; Maximalziel: im Idealfall selbst die Größen nachprogrammieren können.

  • Dazu die Formeln und Algorithem googeln, stackexchange.com, Tutorials

  • das muss doch mit wenigen Zeilen ganz gut zu machen sein?

Lösung in der Praxis später natürlich: Bibliotheken; Nutzung z.B. Cosinus Ähnlichkeit, Markdown

2023-04-27#

bezogen auf Bag of Words erstellen

  • Minimalziel: im Detail lesen können (Lese-Verständnis)

  • Notebook anpassen (Normalziel): statt absoluten Zahlen Matrix aus tf-idf erstellen - auch normiert mit Dokumentenlänge

  • Statt einem Bag of Words einen bag of character n-grams erstellen: Für z.B. n = 3 wird “Hallo” repräsentiert durch die (Pseudo-) Wörter “hal”, “all”, “llo”.

Kommende Woche ist wegen Dienstreise keine Veranstaltung (wird nachgeholt). Bitte eignen Sie sich eigenständig die Grundlagen der logistischen Regression (keine Regressions-, sondern eine Klassifikations-Methode!) an:

2023-05-11#

Musterdatenkatalog

2023-05-18: Christi Himmelfahrt

2023-05-25#

Vorstellung Bachelorarbeit N.N.

2023-05-30: Raum J1.07#

Wegen dem STUV-Sommerfest sind wir im Raum J1.07

Notebook:

2023-06-08: Kein Untericht wegen Fronleichnahm

2023-06-15: verschoben auf 2023-06-14 und 2023-06-16#

  • Kein dsci-txt am Do 2023-06-15 wegen Dienstreise!

Weil die Stundenpläne verschieden sind, gibt es zwei Ausweichtermine. An beiden Terminen mache ich den gleichen Unterricht, Sie können also wählen (und gerne auch bei beiden Terminen dabei sein):

  • Termin 1: Mi 2023-06-14, 16:10 – 17:40

  • Termin 2: Fr 2023-06-16, 8:45 – 10:15

ZOOM wie immer, siehe Moodle

Thema an den 2 Ausweichterminen: Einführung in die dsci-txt Studienarbeit SS 2023

2023-06-22#

Nochmals Besprechung der Aufgabenstellung der dsci-txt Studienarbeit SS 2023

Hintergrundwissen zur Studienarbeit:

So macht das übrigens Bertelsmann: https://github.com/bertelsmannstift/Musterdatenkatalog

MONTAG 2023-06-26, 8:00 Uhr DIGITAL#

JB steht in Zoom für Nachfragen zur Studienarbeit zur Verfügung

  • ab 08:00 Uhr vorzugsweise für solche Studierende, die um 8:45 Uhr ein anderes Praktikum haben

  • ab 08:45 Uhr für die restlichen Studierenden

wir hatten ja heute (Mo) morgen Gelenheit zu Nachfragen zur Studienarbeit. Folgendes wurde besprochen:

Abgabe: eigentlich letzter Vorlesungstag. Aber weil ich am Wochenende nicht korrigiere, haben Sie gerne 2 Tage Karenzzeit: letzte Abgabe also Sonntag 2023-07-09 Mitternacht

2023-06-29 keine Veranstaltung wegen Dienstreise (verlegt auf MONTAG 2023-06-26, 8:00 Uhr DIGITAL)

2023-07-07#

  • 14:30 Uhr letztes Feedback per Zoom (einfach vorher schon auf Moodle hochladen)

  • Abgabe bis So Abend auf Moodle: Abgabe Studienprojekt SS 2023 bis So abend, 2023-07-09

Literatur#