dsci-txt: Themen und Termine
Inhalt
dsci-txt: Themen und Termine¶
Lehrbuch:
Siegel, Melanie: Sentiment-Analyse deutschsprachiger Meinungsäußerungen. Grundlagen, Methoden und praktische Umsetzung. Springer Vieweg 2020. Permalink | Volltext HAW LA [SA20]
Runde 1: Python lernen¶
KW 11: Kick-Off¶
Protokoll: Moodle > Etherpads > KW 11: Wer will wie teilnehmen?
KW 12: Digital¶
Zoom siehe Moodle
14:30: Einführung in das dsci-lab.
Bitte bereit halten: Laptop mit bereits heruntergeladener (!) OVA-Datei, siehe http://jbusse.de/dsci-lab/dsci-lab-getstarted.html (user und Download-Passwort: siehe Moodle)
“hybrid” (digital und in Präsenz), Sendung kommt aus Raum J1.07
Ansage, Python lernen:
Empfehlung JB: http://jbusse.de/2021_ws_dsci/python-lernen.html
Codewars: erwartet wird 6 KYU
Gastvortrag Anatol Reibold, https://www.cogia.de/
hybrid, Sendung kommt aus aus G0.05: Wer will, kommt dazu!
KW 13, 2022-03-31, 12:50-17:45 Uhr¶
gemeinsamer Codewars Coding Nachmittag
KW 14, 2022-04-07, 16:10-17:45 Uhr DIGITAL¶
Zoom siehe Moodle
zweiter Gastvortrag Cogia:
Vorstellung eines Twitter-Datensatzes zu Bitcoin; vgl. ergänzend auch auch https://cryptopanic.com/
NEU 2022-04-05: Twitter-Datensatz: Moodle > Twitter zu Bitcoin und Ethereum
Orga:
Codewars-Erwartung: 6 kyu, entspricht 100 Pkte. Nicknames?
Python lernen: Jeder dieser Selbsttest-Aufgaben sollten Sie bis 2022-04-21 (KW 16) selbst und ohne große Probleme in wenigen Minuten lösen können: Aufgaben_2022-04-16.ipynb
KW 16, 2022-04-21 HYBRID¶
Ich unterrichte aus G0.05, aber die Teilnahme ist perfekt auch per Zoom möglich.
Thema: Einführung in regular expressions.
Sandkasten: https://regex101.com/
Demo JB: einfache Patterns suchen, ersetzen; Python-Code erzeugen
Theorie selbst erarbeiten:
Einführung in regex:
Erste Einführung z.B. https://danielfett.de/2006/03/20/regulaere-ausdruecke-tutorial/
interaktive Lesson z.B. https://regexone.com/
regex mit Python:
Anwendung: Dateiname in Pfad, Name und Extension trennen
Notebook: http://jbusse.de/dsci-txt/regex-df.html
Aufgabe:
pne(filename)
mit regex besser machen!
Weitere Anwendung:
Twitter > BWM-Tweets (Achtung: Trennzeichen ist “§”)
Orga¶
Liebe Studierende aus dsci-txt,
vor Ostern haben Sie schwerpunktmäßig Python gelernt, siehe http://jbusse.de/2021_ws_dsci/python-lernen.html. Ich gehe im folgenden davon aus, dass Sie (a) wissen, was mit dem Whirlwind-Buch gemeint ist, (b) die darin beschriebeben Konstrukte kennen, und dass Sie (c) in Codewars den 6. KYU erreicht haben, und (d) die Aufgaben_2022-04-16.ipynb gelöst haben.
Wie geht es weiter?
(1) Inhalte: Wie geplant gehen wir jetzt nach Ostern in medias res. Wir beginnen morgen (Do) mit regular expressions, die sind Grundlage für alles, was mit Text zu tun hat - muss man kennen, können. Seien Sie also dabei (HYBRID).
(2) Ich hatte ja versucht, dass wir die Übung Donnerstags zweiwöchig machen können. Weil der Termin aber sehr oft nicht stattfinden kann, benötigen wir leider doch noch zumindest einen der im Stundenplan ausgewiesenen Coding-Samstage:
Coding-Samstag, 2022-05-14, von 8:45 bis 14:20 Uhr. Anwesenheit dringend empfohlen, aber nicht Pflicht (denn es gibt zwar eine Teilnahme-, aber keine Anwesehheits-Pflicht).
(3) Terminvorschau:
morgen (Do) 2022-04-21 ist uKW, also keine Übung, sondern nur Vorlesung, und zwar HYBRID.
kommende Woche 2022-04-28 bin ich auf Deinstreise. Übung und Vorlesung fallen nicht aus, sind aber “digital asynchron”. Aufgabenstellung siehe Homepage zur Veranstaltung.
2022-05-05 ist wieder uKW, also Vorlesung ohne Übung
2022-05-12 ist gKW, also 12:50-17:50 Uhr Vorlesung + Übung
in PRÄSENZ, Anwesenheit ist Pflicht
Status Quo: Wo stehen Sie, wo geht es noch hin?
2022-05-14: CODING-Samstag
2022-05-26: Christi Himmelfahrt: keine Übung
2022-05-02: gKW, also nur Vorlesung
2022-06-09: uKW, Vl + Übung
2022-06-16: Fronleichnam
2022-06-23: uKW, Vl + Übung: Kurzpräsentation und Abgabe der Studienarbeiten
2022-07-07: uKW, Vl + Übung: ggf. Nachholtermin, “rote Laterne”
KW 17, 2022-04-28: digital asynchron¶
Aufgabe: Sich den Inhalt aus KW 16 erarbeiten, insbesondere das Notebook http://jbusse.de/dsci-txt/regex-df.html ‘runterladen, verstehen, damit spielen, insbesondere mit regex ‘rumspielen, aber auch die Funktion pne()
noch besser machen
KW 18, 2022-05-05¶
wieder uKW, also Vorlesung ohne Übung um 16:10 Uhr, aber wie vorgesehen wieder in PRÄSENZ.
Vorbereitung (!): Alle 4 Videos unter http://jbusse.de/dsci-txt/e_text-sim-cosine.html
gucken und
im Detail verstehen.
Am Do programmieren wir dann, und bringen insbesondere das Notebook von Raphael Schaller zum laufen und verändern es. Also unbedingt den eigenen Rechner mitbringen, Smartphone reicht nicht.
Aufgabe:
Verändern Sie das Notebook von * Cory Maklin* (Website, Youtube) so, dass es für mehr als 2 Strings funktioniert.
2022-05-05T1745: Unser Zwischenstand befindet sich auf Moodle unter www_coryjmaklin_com_tfidf-python-example.ipynb. Aufgabe: Listen-Erweiterung verstehen, und bis zum Ende durchziehen!
KW 19: Do 2022-05-12 und Sa 2022-05-14 Coding Session¶
gKW, also eigentlich mit Übung, aber Maifest, also:
12:50 Uhr: keine Übung, sondern Maifest mit Maibaumaufstellen
16.10 Uhr Vorlesung
in PRÄSENZ, Anwesenheit ist Pflicht
Vorbereitung Sa Coding-Day
2022-05-14: CODING-Samstag 9-15 Uhr, G0.07, in PRÄSENZ
Elemente:
verschiedene Notebooks aus http://jbusse.de/dsci-txt/c.html verstehen, spielerisch verändern, anwenden, systematisch die Aussagekraft evaluieren
gemeinsames Mittagessen? Besprechung am Do vorher
Tischkicker!
2022-05-26: Christi Himmelfahrt: keine Veranstaltung
2022-06-02¶
HYBRID
KW22, gKW, also nur Vl um 16:10 Uhr
Neues Thema: Die NLP-Pipeline. Zur Vorbereitung bitte den folgenden klausurrelevanten Text lesen und verstehen:
https://sentic.net/publications/ > E Cambria, S Poria, A Gelbukh, M Thelwall. Sentiment analysis is a big suitcase. IEEE Intelligent Systems 32(6), 74-80 (2017) (pdf)
Wir erstellen am Donnerstag ein Glossar in DE zu allen wichtigen Begriffen aus dem Text.
2022-06-09¶
PRÄSENZ
KW 23, uKW, also Vl + Übung um 12:50 Uhr
Übung 12:50 Uhr
Was kennen Sie schon? Zu regex hatten Sie sich ja schon dieses Notebook angeschaut: http://jbusse.de/dsci-txt/regex-df.html. Bitte nochmal anschauen, verstehen, für heute in Jupyter Notebook lauffähig vorhalten.
Dann Vertiefung RegEx. Bitte bringen Sie unter https://regex101.com/ lauffähige RegEx mit, mit denen Sie in den jeweiligen üblichen Schreibweisen in einem Text erkennen können:
eine ISBN-10 oder ISBN-13,
z.B. 3-86680-192-9, 978-0-684-84332-2
ein nationale Rufnummer in Deutschland
z.B. 030 12345-67, 06848 / 4 33 22
Erproben Sie Ihre RegEx an folgendem Text:
Kannst Du mir bitte aus der Stadt auch noch Hemingways Kurzgeschichten mitbringen, die ISBN war mal 0-684-84332-2? Falls nicht, ruf mich bitte an in Berlin unter 030 12345-67, oder auch in Homburg: 0684 / 84 33 22. Danke Dir!
Wenn Sie mit Suchen und ersetzen arbeiten, ist folgende Ausgabe denkbar:
Kannst Du mir bitte aus der Stadt auch noch Hemingways Kurzgeschichten mitbringen, die ISBN war mal
<span class='isbn'>0-684-84332-2</span>
? Falls nicht, ruf mich bitte an unter<span class='tel'>0684 / 84 33 22</span>
, ok?
Teilnahmepflicht in PRÄSENZ: Es ist unbedingt erforderlich, dass Sie
an diesem Donnerstag in PRÄSENZ anwesend sind;
zeigen könnnen, dass Sie solche RegEx auf https://regex101.com/ souverän formulieren können;
in einem Jupyter Notebook auch in Python verwenden können.
Wer nicht in Präsenz teilnehmen kann, entschuldige sich bitte mit einem sehr guten Grund.
16:10 Uhr: Einführung in spaCy
2022-06-16: Fronleichnam, keine Veranstaltung
2022-06-23: uKW, Vl + Übung¶
(krank)
2022-06-30¶
Vl 16:10 Uhr: Besprechung der Klausurthemen: dsci-txt: Klausur
2022-07-07: Nachholtermin¶
Vl 16:10 Uhr PRÄSENZ (G0.03): Kein neuer Input, aber Gelegenheit zu Fragen; danach gemeinsamer Ausklang am Tischkicker