dsci-txt: Klausur
Inhalt
dsci-txt: Klausur¶
Wir haben die drei Verzeichnisse:
hier vorliegend http://jbusse.de/2022_ss_dsci/dsci-txt-tut.html;
eine experimentelle Vorform für ein zukünftiges Skript, siehe http://jbusse.de/dsci-txt/c.html;
eine ältere Seite, die noch überarbeitet und in das neue Skript überführt werden muss: http://jbusse.de/2021_ws_dsci/python-lernen.html.
Hintergrund- und Kontextwissen für Interessierte:
Hoppe, Thomas: Semantische Suche. Grundlagen und Methoden semantischer Suche von Textdokumenten. Springer Vieweg 2020. Permalink: https://flatp20.bib-bvb.de/search?bvnr=BV047047045 | HAW LA: https://bibaccess.fh-landshut.de:2673/book/10.1007%2F978-3-658-30427-0
dort insbes. Kap. 2, S.19-62
Python¶
Ein paar kleine Aufgaben als Fingerübungen, hauptsächlich zu Listen und Dicts.
in der Komplexität von Codewars 7 KYU
Beispiele siehe
Auch eine minimal komplexere Aufgabe wie z.B. diese:
gegeben: ein Dict
aussprache_to_zahl
z.B.
{"null": 0, "eins": 1, "one": 1, "zwei": 2, "zwoa": 2, ... }
gesucht: ein dict
zahl_to_aussprache
z.B.
{0: [ "null" ], 1: [ "eins", "one" ], 2: ["zwei", "zwoa" ], ... }
Regex¶
Grundlagenwissen, Input, Spielplatz etc. siehe unsere Sitzung
Klausur:
regex schreiben: Gesucht sind regex für Standard-Aufgaben wie z.B. Datum, Zeit, email; vgl. auch unser Beispiel “Dateiname in Pfad, Name und Extension trennen”
regex lesen: ggf. zeige ich eine regex plus Text, und Sie markieren, was ausgewählt wird
Cosinus-Ähnlichkeit¶
Grundlagenwissen für die Klausur:
Typische Fragen:
Was ist ein Bag of Words?
Was versteht man unter tf-idf?
Was passiert, wenn man statt einem Bag of Words einen Bag of Lemmata erzeugt?
Was hat Cosinus-Ähnlichkeit mit Dokuemntenähnlichkeit zu tun? Erläutern Sie in eigenen Worten!
NLP mit spaCy¶
Grundlagenwissen für die Klausur:
Typische Aufgaben:
Erklären Sie in eigenen Worten: Stemming, Lemmatisierung, tokenizer, parser, tagger …
Was sind POS-Tags? Welche kennen Sie? Wann werden sie generiert?
skizzieren Sie eine typische Pipeline mit Stemming, NER, Lemmatisierung, Tokenization
Sentiment¶
Grundlagenwissen für die Klausur:
https://sentic.net/publications/ > E Cambria, S Poria, A Gelbukh, M Thelwall. Sentiment analysis is a big suitcase. IEEE Intelligent Systems 32(6), 74-80 (2017) (pdf)