dsci-txt: Klausur

Wir haben die drei Verzeichnisse:

Hintergrund- und Kontextwissen für Interessierte:

Python

Ein paar kleine Aufgaben als Fingerübungen, hauptsächlich zu Listen und Dicts.

  • in der Komplexität von Codewars 7 KYU

Beispiele siehe

Auch eine minimal komplexere Aufgabe wie z.B. diese:

  • gegeben: ein Dict aussprache_to_zahl

    • z.B. {"null": 0, "eins": 1, "one": 1, "zwei": 2, "zwoa": 2, ... }

  • gesucht: ein dict zahl_to_aussprache

    • z.B. {0: [ "null" ], 1: [ "eins", "one" ], 2: ["zwei", "zwoa" ], ... }

Regex

Grundlagenwissen, Input, Spielplatz etc. siehe unsere Sitzung

Klausur:

  • regex schreiben: Gesucht sind regex für Standard-Aufgaben wie z.B. Datum, Zeit, email; vgl. auch unser Beispiel “Dateiname in Pfad, Name und Extension trennen”

  • regex lesen: ggf. zeige ich eine regex plus Text, und Sie markieren, was ausgewählt wird

Cosinus-Ähnlichkeit

Grundlagenwissen für die Klausur:

Typische Fragen:

  • Was ist ein Bag of Words?

  • Was versteht man unter tf-idf?

  • Was passiert, wenn man statt einem Bag of Words einen Bag of Lemmata erzeugt?

  • Was hat Cosinus-Ähnlichkeit mit Dokuemntenähnlichkeit zu tun? Erläutern Sie in eigenen Worten!

NLP mit spaCy

Grundlagenwissen für die Klausur:

Typische Aufgaben:

  • Erklären Sie in eigenen Worten: Stemming, Lemmatisierung, tokenizer, parser, tagger …

  • Was sind POS-Tags? Welche kennen Sie? Wann werden sie generiert?

  • skizzieren Sie eine typische Pipeline mit Stemming, NER, Lemmatisierung, Tokenization

Sentiment

Grundlagenwissen für die Klausur: