FWPF Text Mining (dsci-txt) SS 2021¶
Eckdaten:
Moodle: https://moodle.haw-landshut.de/course/view.php?id=6589, Einschreibeschlüssel: Wissenschaft
Inhalte siehe Modulhandbuch: http://www.jbusse.de/public/Modul_dsci-txt.html
Einführung und Beginn:
Do 2020-03-18, 10:30-11:15
Zoom: siehe Moodle
Hinweis:
Wie in allen Veranstaltungen im Bereich KI und auch einigen anderen Fächern wie IoT, Security u.V.m. arbeiten wir mit Python. WIF-Studierende in einem Fachsemester >= 3 haben aber noch kein Python gelernt. Deshalb startet die Veranstaltung mit einer Python Intensiv-Phase, die dann in KW 14 abgeschlossen sein wird.
Coronabedingt sind die Pools in der HAW noch geschlossen. Damit wir in einer kontrollierten Umgebung sofort schnell losarbeiten können, stelle ich Ihnen ein Datascience Lab in Form einer komplett ausgesatteten virtuellen Linux-Maschine unter Oracle VirtualBox zur Verfügung. Technische Voraussetzungen siehe dsci-lab (EN).
Themen und Termine¶
KW 11¶
Do 2021-03-18, 10:30 Uhr: Vorbesprechung
Besprechung Studienarbeit
Abschreiben erlaubt - machmal ;-)
TBD Teilnehmer die nächsten Tage:
anonymen Account besorgen bei https://www.codewars.com/ (Demo JB)
Installation dsci-lab
Download: http://jbusse.de/dsci-lab/dsci-lab-getstarted.html
Download der vdi-Datei: heute (Do) ab ca 12 Uhr
user und passwort: siehe Moodle
Sie erhalten eine automatisch generierte Einladung vom dsci-txt-wiki: Bitte Passwort setzen (aber ungleich haw-passwort).
Do Nachmittag:
unser Wiki läuft: https://wiki.lab.if.haw-landshut.de/doku.php?id=dsci-txt:start
Intro in das dsci-lab
Intro codewars
KW 12¶
Do 2021-03-25
dsci-lab ist bei den TN installiert und betriebsbereit
Einführung in das Wiki (Accounts im Wiki anlegen, Wiki einrichten: Das mache ich auf Basis der Daten im Moodle-Kurs)
Do 2021-04-01 Gründonnerstag: vorlesungsfrei
KW 14¶
Besprechung von Moodle > a3.md
Wie sieht die Lage bei Codewars aus? https://www.codewars.com/dashboard
Beispiel Moodle > dsci-txt-mdsim.zip
Ideen für Veränderungen: Vergleiche Dateien
nur anhand von Zeilen, die keine Überschriften sind
nur anhand ihrer (Markdown-) Überschriften
KW xxx¶
super Umgebung zum Ausprobieren und Visualisieren: https://regex101.com/
https://chrisalbon.com/ > Regular Expressions
Studienarbeit¶
Die LV besteht darin, die Studienarbeit während des Semesters anzufertigen.
zu Teilen, die rechtzeitig abgegeben werden, gibt es konstruktives Feedback.
Einige Abgaben sind für alle andere TN sichtbar:
Wir erzeugen damit einen Text-Korpus, den wir im Rahmen unserer Projekte selbst wieder zum Gegenstand unserer Textanalysen machen, insbesondere für Textähnlichkeits-Analysen.
Endergebnis: Zip-Datei, die gut dokumentiert alle relevanten Ergebnisse des Semesters enthält
Python Kompetenznachweis¶
Die Inhalte dieses Buchs sollten Sie beherrschen:
Idee:
Ein Cookbook ähnlich https://chrisalbon.com/
Eine Sammlung von Codewars-Aufgaben und Lösungen als dsci-txt-wiki
Unser Spielplatz:
Ergebnissicherung:
genügend Codewars-Honors bis KW 15
genügend schöne Einträge im Wiki
In KW 15 möglich:
eine Zwischenklausur (digital, asynchron, Lösungszeit ein paar Tage, Zuhause)
Abschreiben möglich, aber nicht zu oft erwünscht
Wir werden die Ergebnisse der Klausur selbst wieder als Textgrundlage verwenden: Information retrieval from Python-Text
RegEx und SpaCy Matching¶
Extraktion von Datum, Uhrzeit, email etc. aus Plaintext