FWPF Text Mining (dsci-txt) SS 2023#

Beginn siehe http://www.jbusse.de/pub/veranstaltungen.html

Moodle:

Inhalte#

Kern:

  • Bag of Words, tf-idf, Cosinus-Ähnlichkeit

Schwerpunkt SS 2023:

  • Ähnlichkeit von Dokumenten

  • Nutzung linguistischer Ressourcen wie z.B. WordNet, BabelNet, Wortschatz Leipzig u.A.

Aspekte:

  • Formate: unstrukturierter “Plain”-Text; html; XML; json

  • Quellen: Freitext; Mindmaps; Jupyter Notebooks

  • Granularität: Bag of Words; 3-Gramme auf Zeichenebene; klassische Metadaten

ggf. Experimente mit WbGPT? Beispiele:

  • Verschiedene Menschen befragen WebGPT mit einer von drei genau genormten Fragen.

  • Wie ähnlich sind die Antworten? Können wir die Antworten klassifizieren?

Arbeitsformen#

Seminaristischer Unterricht:

  • auch Studierende halten einen kleinen Seminarvortrag

  • und geben den Zuhörern als “Proof of Concept” ein Notebook an die Hand

Übung:

  • JB führt in lauffähige Jupyter Notebooks ein, z.B. Code

  • Studierende “spielen” damit, erweitern die Notebooks

Klausur#

TBD

Themen und Termine#

2023-03-16#

Vorbesprechung: Vorkenntnisse der TN bzgl. Python?

Einführung in das http://jbusse.de/dsci-lab/start.html: Bitte bis kommende Woche installieren

Fingerübungen mit https://regex101.com/: An was erinnern wir uns? Erkenne im untigen Bsp. z.B.:

  • nur das Datum

  • die komplette Veranstaltungs-ID

  • u.s.w.

Die Veranstaltung mit der Veranstaltungs-ID 
127166_2022-06-12T12:00 
ist für alle Interessierten offen.

2023-03-23#

JB gibt eine Mini-Intro in Python,

16:10 Uhr: Besprechung von möglichen Themen für eine Bachelorarbeit in diesem Fach, u.A. http://jbusse.de/pub/projektideen.html#textmining-dsci-txt

2023-03-30#

Fortsetzung der Einführung in Python, Schwerpunkt: Listen und Dicts.

Literatur#