dsci-txt: Themen und Termine

Lehrbuch:

  • Siegel, Melanie: Sentiment-Analyse deutschsprachiger Meinungsäußerungen. Grundlagen, Methoden und praktische Umsetzung. Springer Vieweg 2020. Permalink | Volltext HAW LA [SA20]

Runde 1: Python lernen

KW 11: Kick-Off

Protokoll: Moodle > Etherpads > KW 11: Wer will wie teilnehmen?

KW 12: Digital

Zoom siehe Moodle

14:30: Einführung in das dsci-lab.

Ansage, Python lernen:

Gastvortrag Anatol Reibold, https://www.cogia.de/

  • hybrid, Sendung kommt aus aus G0.05: Wer will, kommt dazu!

KW 13, 2022-03-31, 12:50-17:45 Uhr

gemeinsamer Codewars Coding Nachmittag

KW 14, 2022-04-07, 16:10-17:45 Uhr DIGITAL

Zoom siehe Moodle

zweiter Gastvortrag Cogia:

NEU 2022-04-05: Twitter-Datensatz: Moodle > Twitter zu Bitcoin und Ethereum

Orga:

  • Codewars-Erwartung: 6 kyu, entspricht 100 Pkte. Nicknames?

  • Python lernen: Jeder dieser Selbsttest-Aufgaben sollten Sie bis 2022-04-21 (KW 16) selbst und ohne große Probleme in wenigen Minuten lösen können: Aufgaben_2022-04-16.ipynb

KW 16, 2022-04-21 HYBRID

Ich unterrichte aus G0.05, aber die Teilnahme ist perfekt auch per Zoom möglich.

Thema: Einführung in regular expressions.

Theorie selbst erarbeiten:

Einführung in regex:

regex mit Python:

Anwendung: Dateiname in Pfad, Name und Extension trennen

Weitere Anwendung:

Orga

Liebe Studierende aus dsci-txt,

vor Ostern haben Sie schwerpunktmäßig Python gelernt, siehe http://jbusse.de/2021_ws_dsci/python-lernen.html. Ich gehe im folgenden davon aus, dass Sie (a) wissen, was mit dem Whirlwind-Buch gemeint ist, (b) die darin beschriebeben Konstrukte kennen, und dass Sie (c) in Codewars den 6. KYU erreicht haben, und (d) die Aufgaben_2022-04-16.ipynb gelöst haben.

Wie geht es weiter?

(1) Inhalte: Wie geplant gehen wir jetzt nach Ostern in medias res. Wir beginnen morgen (Do) mit regular expressions, die sind Grundlage für alles, was mit Text zu tun hat - muss man kennen, können. Seien Sie also dabei (HYBRID).

(2) Ich hatte ja versucht, dass wir die Übung Donnerstags zweiwöchig machen können. Weil der Termin aber sehr oft nicht stattfinden kann, benötigen wir leider doch noch zumindest einen der im Stundenplan ausgewiesenen Coding-Samstage:

  • Coding-Samstag, 2022-05-14, von 8:45 bis 14:20 Uhr. Anwesenheit dringend empfohlen, aber nicht Pflicht (denn es gibt zwar eine Teilnahme-, aber keine Anwesehheits-Pflicht).

(3) Terminvorschau:

  • morgen (Do) 2022-04-21 ist uKW, also keine Übung, sondern nur Vorlesung, und zwar HYBRID.

  • kommende Woche 2022-04-28 bin ich auf Deinstreise. Übung und Vorlesung fallen nicht aus, sind aber “digital asynchron”. Aufgabenstellung siehe Homepage zur Veranstaltung.

  • 2022-05-05 ist wieder uKW, also Vorlesung ohne Übung

  • 2022-05-12 ist gKW, also 12:50-17:50 Uhr Vorlesung + Übung

    • in PRÄSENZ, Anwesenheit ist Pflicht

    • Status Quo: Wo stehen Sie, wo geht es noch hin?

  • 2022-05-14: CODING-Samstag

  • 2022-05-26: Christi Himmelfahrt: keine Übung

  • 2022-05-02: gKW, also nur Vorlesung

  • 2022-06-09: uKW, Vl + Übung

  • 2022-06-16: Fronleichnam

  • 2022-06-23: uKW, Vl + Übung: Kurzpräsentation und Abgabe der Studienarbeiten

  • 2022-07-07: uKW, Vl + Übung: ggf. Nachholtermin, “rote Laterne”

KW 17, 2022-04-28: digital asynchron

Aufgabe: Sich den Inhalt aus KW 16 erarbeiten, insbesondere das Notebook http://jbusse.de/dsci-txt/regex-df.html ‘runterladen, verstehen, damit spielen, insbesondere mit regex ‘rumspielen, aber auch die Funktion pne() noch besser machen

KW 18, 2022-05-05

wieder uKW, also Vorlesung ohne Übung um 16:10 Uhr, aber wie vorgesehen wieder in PRÄSENZ.

Vorbereitung (!): Alle 4 Videos unter http://jbusse.de/dsci-txt/e_text-sim-cosine.html

  • gucken und

  • im Detail verstehen.

Am Do programmieren wir dann, und bringen insbesondere das Notebook von Raphael Schaller zum laufen und verändern es. Also unbedingt den eigenen Rechner mitbringen, Smartphone reicht nicht.

Aufgabe:

  • Verändern Sie das Notebook von * Cory Maklin* (Website, Youtube) so, dass es für mehr als 2 Strings funktioniert.

  • 2022-05-05T1745: Unser Zwischenstand befindet sich auf Moodle unter www_coryjmaklin_com_tfidf-python-example.ipynb. Aufgabe: Listen-Erweiterung verstehen, und bis zum Ende durchziehen!

KW 19: Do 2022-05-12 und Sa 2022-05-14 Coding Session

gKW, also eigentlich mit Übung, aber Maifest, also:

  • 12:50 Uhr: keine Übung, sondern Maifest mit Maibaumaufstellen

  • 16.10 Uhr Vorlesung

    • in PRÄSENZ, Anwesenheit ist Pflicht

    • Vorbereitung Sa Coding-Day

2022-05-14: CODING-Samstag 9-15 Uhr, G0.07, in PRÄSENZ

Elemente:

  • verschiedene Notebooks aus http://jbusse.de/dsci-txt/c.html verstehen, spielerisch verändern, anwenden, systematisch die Aussagekraft evaluieren

  • gemeinsames Mittagessen? Besprechung am Do vorher

  • Tischkicker!

2022-05-26: Christi Himmelfahrt: keine Veranstaltung

2022-06-02

HYBRID

KW22, gKW, also nur Vl um 16:10 Uhr

Neues Thema: Die NLP-Pipeline. Zur Vorbereitung bitte den folgenden klausurrelevanten Text lesen und verstehen:

Wir erstellen am Donnerstag ein Glossar in DE zu allen wichtigen Begriffen aus dem Text.

2022-06-09

PRÄSENZ

KW 23, uKW, also Vl + Übung um 12:50 Uhr

Übung 12:50 Uhr

Was kennen Sie schon? Zu regex hatten Sie sich ja schon dieses Notebook angeschaut: http://jbusse.de/dsci-txt/regex-df.html. Bitte nochmal anschauen, verstehen, für heute in Jupyter Notebook lauffähig vorhalten.

Dann Vertiefung RegEx. Bitte bringen Sie unter https://regex101.com/ lauffähige RegEx mit, mit denen Sie in den jeweiligen üblichen Schreibweisen in einem Text erkennen können:

Erproben Sie Ihre RegEx an folgendem Text:

Kannst Du mir bitte aus der Stadt auch noch Hemingways Kurzgeschichten mitbringen, die ISBN war mal 0-684-84332-2? Falls nicht, ruf mich bitte an in Berlin unter 030 12345-67, oder auch in Homburg: 0684 / 84 33 22. Danke Dir!

Wenn Sie mit Suchen und ersetzen arbeiten, ist folgende Ausgabe denkbar:

Kannst Du mir bitte aus der Stadt auch noch Hemingways Kurzgeschichten mitbringen, die ISBN war mal <span class='isbn'>0-684-84332-2</span>? Falls nicht, ruf mich bitte an unter <span class='tel'>0684 / 84 33 22</span>, ok?

Teilnahmepflicht in PRÄSENZ: Es ist unbedingt erforderlich, dass Sie

  • an diesem Donnerstag in PRÄSENZ anwesend sind;

  • zeigen könnnen, dass Sie solche RegEx auf https://regex101.com/ souverän formulieren können;

  • in einem Jupyter Notebook auch in Python verwenden können.

Wer nicht in Präsenz teilnehmen kann, entschuldige sich bitte mit einem sehr guten Grund.

16:10 Uhr: Einführung in spaCy

2022-06-16: Fronleichnam, keine Veranstaltung

2022-06-23: uKW, Vl + Übung

(krank)

2022-06-30

Vl 16:10 Uhr: Besprechung der Klausurthemen: dsci-txt: Klausur

2022-07-07: Nachholtermin

Vl 16:10 Uhr PRÄSENZ (G0.03): Kein neuer Input, aber Gelegenheit zu Fragen; danach gemeinsamer Ausklang am Tischkicker