Themen für Interessierte oder Fortgeschrittene (ggf. auch Abschlussarbeiten aktuell oder zukünftig):
Publishing mit https://pandoc.org/
- Evaluation Pandoc Markdown; roundtrip mit
- Jupyter Notebook Markdown
- Dokuwiki Markdown plugin
- html
- Einbindung Literatur- /Link-Verwaltungen
- eigenes Pandoc-Format
- Zotero
- Citavi
- Pandoc Erweiterung mit https://pandoc.org/filters.html
- Pandoc Lua-Filter
- Technik: https://pandoc.org/lua-filters.html
- Ziel: Einbindung eines Java-basierten XML-Filters
Semantisches Feature Engineering
- semantische Vorverarbeitung von Daten für bessere Machine Learning Scores
Beispiele für fancy Visualisierungs-Techniken
- matplotlib, seaborn u.V.m.
- auch live 3D-Navigation?
Daten-Vorverarbeitung mit https://www.nltk.org/
- aktuelle Fassung online: https://www.nltk.org/book/, auf github als rst: https://github.com/nltk/nltk_book/tree/master/book
- multilingual, in Verbindung mit Tree Tagger: https://hugonlp.wordpress.com/2015/10/07/how-to-do-pos-tagging-and-lemmatization-in-languages-other-than-english/
- mit Germanet?
Analyse eines Keylogger-Datenstroms
Doubletten-Erkennung mit https://dedupe.io/