FWPF Text Mining (dsci-txt) SS 2021

Eckdaten:

Einführung und Beginn:

  • Do 2020-03-18, 10:30-11:15

  • Zoom: siehe Moodle

Hinweis:

  • Wie in allen Veranstaltungen im Bereich KI und auch einigen anderen Fächern wie IoT, Security u.V.m. arbeiten wir mit Python. WIF-Studierende in einem Fachsemester >= 3 haben aber noch kein Python gelernt. Deshalb startet die Veranstaltung mit einer Python Intensiv-Phase, die dann in KW 14 abgeschlossen sein wird.

  • Coronabedingt sind die Pools in der HAW noch geschlossen. Damit wir in einer kontrollierten Umgebung sofort schnell losarbeiten können, stelle ich Ihnen ein Datascience Lab in Form einer komplett ausgesatteten virtuellen Linux-Maschine unter Oracle VirtualBox zur Verfügung. Technische Voraussetzungen siehe dsci-lab (EN).

Themen und Termine

KW 11

Do 2021-03-18, 10:30 Uhr: Vorbesprechung

  • Besprechung Studienarbeit

  • Abschreiben erlaubt - machmal ;-)

TBD Teilnehmer die nächsten Tage:

Do Nachmittag:

KW 12

Do 2021-03-25

  • dsci-lab ist bei den TN installiert und betriebsbereit

  • Einführung in das Wiki (Accounts im Wiki anlegen, Wiki einrichten: Das mache ich auf Basis der Daten im Moodle-Kurs)

Do 2021-04-01 Gründonnerstag: vorlesungsfrei

KW 14

Beispiel Moodle > dsci-txt-mdsim.zip

Ideen für Veränderungen: Vergleiche Dateien

  • nur anhand von Zeilen, die keine Überschriften sind

  • nur anhand ihrer (Markdown-) Überschriften

KW xxx

Studienarbeit

Die LV besteht darin, die Studienarbeit während des Semesters anzufertigen.

  • zu Teilen, die rechtzeitig abgegeben werden, gibt es konstruktives Feedback.

  • Einige Abgaben sind für alle andere TN sichtbar:

    • Wir erzeugen damit einen Text-Korpus, den wir im Rahmen unserer Projekte selbst wieder zum Gegenstand unserer Textanalysen machen, insbesondere für Textähnlichkeits-Analysen.

  • Endergebnis: Zip-Datei, die gut dokumentiert alle relevanten Ergebnisse des Semesters enthält

Python Kompetenznachweis

Die Inhalte dieses Buchs sollten Sie beherrschen:

Idee:

  • Ein Cookbook ähnlich https://chrisalbon.com/

  • Eine Sammlung von Codewars-Aufgaben und Lösungen als dsci-txt-wiki

Unser Spielplatz:

In KW 15 möglich:

  • eine Zwischenklausur (digital, asynchron, Lösungszeit ein paar Tage, Zuhause)

  • Abschreiben möglich, aber nicht zu oft erwünscht

  • Wir werden die Ergebnisse der Klausur selbst wieder als Textgrundlage verwenden: Information retrieval from Python-Text

Textähnlichkeit

Konstruktive Beiträge zum einem der folgenden Projekte

  • Mindmaps

  • ipynb-Notebooks

RegEx und SpaCy Matching

  • Extraktion von Datum, Uhrzeit, email etc. aus Plaintext