# dsci-txt: Themen und Termine Lehrbuch: * Siegel, Melanie: Sentiment-Analyse deutschsprachiger Meinungsäußerungen. Grundlagen, Methoden und praktische Umsetzung. Springer Vieweg 2020. [Permalink](https://flatp20.bib-bvb.de/search?bvnr=BV046834890) | [Volltext HAW LA](https://bibaccess.fh-landshut.de:2673/book/10.1007%2F978-3-658-29699-5) {cite}`siegelSentimentAnalyseDeutschsprachigerMeinungsausserungen2020` # Runde 1: Python lernen ## KW 11: Kick-Off Protokoll: Moodle > Etherpads > KW 11: Wer will wie teilnehmen? ## KW 12: Digital Zoom siehe Moodle 14:30: Einführung in das [dsci-lab](http://jbusse.de/dsci-lab/intro.html). * Bitte bereit halten: Laptop mit bereits heruntergeladener (!) OVA-Datei, siehe (user und Download-Passwort: siehe Moodle) * "hybrid" (digital und in Präsenz), Sendung kommt aus Raum J1.07 Ansage, Python lernen: * Empfehlung JB: * [Codewars](https://www.codewars.com/users/sign_in): erwartet wird 6 KYU Gastvortrag Anatol Reibold, * hybrid, Sendung kommt aus aus G0.05: Wer will, kommt dazu! ## KW 13, 2022-03-31, 12:50-17:45 Uhr gemeinsamer Codewars Coding Nachmittag ## KW 14, 2022-04-07, 16:10-17:45 Uhr DIGITAL Zoom siehe Moodle zweiter Gastvortrag Cogia: * Vorstellung eines Twitter-Datensatzes zu Bitcoin; vgl. ergänzend auch auch NEU 2022-04-05: Twitter-Datensatz: Moodle > [Twitter zu Bitcoin und Ethereum](https://moodle.haw-landshut.de/mod/resource/view.php?id=354355) Orga: * Codewars-Erwartung: *6 kyu*, entspricht 100 Pkte. Nicknames? * Python lernen: Jeder dieser Selbsttest-Aufgaben sollten Sie bis 2022-04-21 (KW 16) selbst und ohne große Probleme in wenigen Minuten lösen können: [Aufgaben_2022-04-16.ipynb](https://moodle.haw-landshut.de/mod/resource/view.php?id=354978) ## KW 16, 2022-04-21 HYBRID Ich unterrichte aus G0.05, aber die Teilnahme ist perfekt auch per Zoom möglich. Thema: Einführung in regular expressions. * Sandkasten: * Demo JB: einfache Patterns suchen, ersetzen; Python-Code erzeugen Theorie selbst erarbeiten: Einführung in *regex*: * Erste Einführung z.B. * interaktive Lesson z.B. regex mit Python: * * Anwendung: Dateiname in Pfad, Name und Extension trennen * Notebook: * Aufgabe: `pne(filename)` mit regex besser machen! Weitere Anwendung: * [Twitter > BWM-Tweets](https://moodle.haw-landshut.de/mod/resource/view.php?id=356386) (Achtung: Trennzeichen ist "§") (kw16orga)= ### Orga Liebe Studierende aus dsci-txt, vor Ostern haben Sie schwerpunktmäßig Python gelernt, siehe . Ich gehe im folgenden davon aus, dass Sie (a) wissen, was mit dem Whirlwind-Buch gemeint ist, (b) die darin beschriebeben Konstrukte kennen, und dass Sie (c) in Codewars den 6. KYU erreicht haben, und (d) die [Aufgaben_2022-04-16.ipynb](https://moodle.haw-landshut.de/mod/resource/view.php?id=354978) gelöst haben. Wie geht es weiter? (1) Inhalte: Wie geplant gehen wir jetzt nach Ostern in medias res. Wir beginnen morgen (Do) mit regular expressions, die sind Grundlage für alles, was mit Text zu tun hat - muss man kennen, können. Seien Sie also dabei (HYBRID). (2) Ich hatte ja versucht, dass wir die Übung Donnerstags zweiwöchig machen können. Weil der Termin aber sehr oft nicht stattfinden kann, benötigen wir leider doch noch zumindest einen der im Stundenplan ausgewiesenen Coding-Samstage: * Coding-Samstag, 2022-05-14, von 8:45 bis 14:20 Uhr. Anwesenheit dringend empfohlen, aber nicht Pflicht (denn es gibt zwar eine Teilnahme-, aber keine Anwesehheits-Pflicht). (3) Terminvorschau: * morgen (Do) 2022-04-21 ist uKW, also keine Übung, sondern nur Vorlesung, und zwar HYBRID. * kommende Woche 2022-04-28 bin ich auf Deinstreise. Übung und Vorlesung fallen nicht aus, sind aber "digital asynchron". Aufgabenstellung siehe Homepage zur Veranstaltung. * 2022-05-05 ist wieder uKW, also Vorlesung ohne Übung * 2022-05-12 ist gKW, also 12:50-17:50 Uhr Vorlesung + Übung * in PRÄSENZ, Anwesenheit ist Pflicht * Status Quo: Wo stehen Sie, wo geht es noch hin? * 2022-05-14: CODING-Samstag * 2022-05-26: Christi Himmelfahrt: keine Übung * 2022-05-02: gKW, also nur Vorlesung * 2022-06-09: uKW, Vl + Übung * 2022-06-16: Fronleichnam * 2022-06-23: uKW, Vl + Übung: Kurzpräsentation und Abgabe der Studienarbeiten * 2022-07-07: uKW, Vl + Übung: ggf. Nachholtermin, "rote Laterne" ## KW 17, 2022-04-28: digital asynchron Aufgabe: Sich den Inhalt aus KW 16 erarbeiten, insbesondere das Notebook 'runterladen, verstehen, damit spielen, insbesondere mit regex 'rumspielen, aber auch die Funktion `pne()` noch besser machen ## KW 18, 2022-05-05 wieder uKW, also Vorlesung ohne Übung um 16:10 Uhr, aber wie vorgesehen wieder in PRÄSENZ. Vorbereitung (!): Alle 4 Videos unter * gucken und * im Detail verstehen. Am Do programmieren wir dann, und bringen insbesondere das Notebook von Raphael Schaller zum laufen und verändern es. Also unbedingt den eigenen Rechner mitbringen, Smartphone reicht nicht. Aufgabe: * Verändern Sie das Notebook von *Raphael Schaller* ([Website](https://www.coryjmaklin.com/tfidf-python-example), [Youtube](https://www.youtube.com/watch?v=UvsQPsrZTK4)) so, dass es für mehr als 2 Strings funktioniert. * 2022-05-05T1745: Unser Zwischenstand befindet sich auf Moodle unter [www_coryjmaklin_com_tfidf-python-example.ipynb](https://moodle.haw-landshut.de/mod/resource/view.php?id=358663). Aufgabe: Listen-Erweiterung verstehen, und bis zum Ende durchziehen! ## KW 19: Do 2022-05-12 und Sa 2022-05-14 Coding Session gKW, also eigentlich mit Übung, aber Maifest, also: * 12:50 Uhr: keine Übung, sondern Maifest mit Maibaumaufstellen * 16.10 Uhr Vorlesung * in PRÄSENZ, Anwesenheit ist Pflicht * Vorbereitung Sa Coding-Day **2022-05-14: CODING-Samstag** 9-15 Uhr, G0.07, in PRÄSENZ Elemente: * verschiedene Notebooks aus verstehen, spielerisch verändern, anwenden, systematisch die Aussagekraft evaluieren * gemeinsames Mittagessen? Besprechung am Do vorher * Tischkicker! **2022-05-26:** Christi Himmelfahrt: keine Veranstaltung ## 2022-06-02 HYBRID KW22, gKW, also nur Vl um 16:10 Uhr Neues Thema: Die NLP-Pipeline. Zur Vorbereitung bitte den folgenden klausurrelevanten Text lesen und verstehen: * > E Cambria, S Poria, A Gelbukh, M Thelwall. Sentiment analysis is a big suitcase. IEEE Intelligent Systems 32(6), 74-80 (2017) ([pdf](https://sentic.net/sentiment-analysis-suitcase.pdf)) Wir erstellen am Donnerstag ein Glossar in DE zu allen wichtigen Begriffen aus dem Text. ## 2022-06-09 PRÄSENZ KW 23, uKW, also Vl + Übung um 12:50 Uhr **Übung 12:50 Uhr** Was kennen Sie schon? Zu regex hatten Sie sich ja schon dieses Notebook angeschaut: . Bitte nochmal anschauen, verstehen, für heute in Jupyter Notebook lauffähig vorhalten. Dann Vertiefung RegEx. Bitte bringen Sie unter lauffähige RegEx mit, mit denen Sie in den jeweiligen üblichen Schreibweisen in einem Text erkennen können: * eine [ISBN-10 oder ISBN-13](https://de.wikipedia.org/wiki/Internationale_Standardbuchnummer#Aufbau_der_ISBN), * z.B. 3-86680-192-9, [978-0-684-84332-2](https://www.thalia.de/shop/home/artikeldetails/A1001388212) * ein [nationale Rufnummer in Deutschland](https://de.wikipedia.org/wiki/Rufnummer#Deutschland) * z.B. 030 12345-67, 06848 / 4 33 22 Erproben Sie Ihre RegEx an folgendem Text: > Kannst Du mir bitte aus der Stadt auch noch Hemingways Kurzgeschichten mitbringen, die ISBN war mal 0-684-84332-2? Falls nicht, ruf mich bitte an in Berlin unter 030 12345-67, oder auch in Homburg: 0684 / 84 33 22. Danke Dir! Wenn Sie mit Suchen und ersetzen arbeiten, ist folgende Ausgabe denkbar: > Kannst Du mir bitte aus der Stadt auch noch Hemingways Kurzgeschichten mitbringen, die ISBN war mal `0-684-84332-2`? Falls nicht, ruf mich bitte an unter `0684 / 84 33 22`, ok? **Teilnahmepflicht in PRÄSENZ**: Es ist unbedingt erforderlich, dass Sie * an diesem Donnerstag in PRÄSENZ anwesend sind; * zeigen könnnen, dass Sie solche RegEx auf souverän formulieren können; * in einem Jupyter Notebook auch in Python verwenden können. Wer nicht in Präsenz teilnehmen kann, entschuldige sich bitte mit einem sehr guten Grund. **16:10 Uhr**: Einführung in spaCy **2022-06-16: Fronleichnam, keine Veranstaltung** ## 2022-06-23: uKW, Vl + Übung Kurzpräsentation und Abgabe der Studienarbeiten ## 2022-07-07: Nachholtermin uKW, Vl + Übung: ggf. Nachholtermin