Themen für Abschlussarbeiten

Themen für Abschlussarbeiten#

Liebe Studierende,

seit einiger Zeit sind Abschlussarbeiten bei mir „defaultmäßig“ in den Themenbereichen Linked Open Data (LOD), Textmining, Information Retrieval, ~~Data Science~~ und seit SS 2025 neu auch Semantic Web angesiedelt. (Data Science wird inzwischen primär von den Kollegen der KI abgedeckt.) Wenn Sie ein Thema suchen, können Sie sich gerne auf dieser Seite inspirieren lassen. Und selbstverständlich freue ich mich auch über eigene Themenvorschläge!

Wenn Sie eine Abschlussarbeit aus dem Bereich Linked Open Data anfertigen wollen, empfehle ich eine Teilnahme (gerne ohne Klausur etc.) an der Veranstaltung http://jbusse.de/logd/, idealerweise am Kickoff http://jbusse.de/logd/logd-tut#logd-block-1
Wenn Sie eine Abschlussarbeit aus dem Bereich Text Mining anfertigen wollen, setze ich voraus, dass Sie den Stoff aus der Veranstaltung https://www.jbusse.de/dsci-txt/dsci-txt-tut.html (zuletzt gelesen SS 2023) beherrschen.

Rahmenbedingungen#

Wichtig ist mir, dass Sie selbst ein fachliches Interesse haben. Ein solches müssen Sie selbst mitbringen - denn was Sie interessiert, kann ich ihnen nicht sagen. Idealerweise sind Sie Ihrem Interesse schon in Ihrer Studienzeit in einer Veranstaltung, einem Job, einem Hobby nachgekommen.

Bei einem Becher Kaffee in der ZH-Cafeteria berate ich Sie dann, wie aus Ihrem allgemeinen fachlichen Interesse eine konkrete, bearbeitbare, wahrheitsfähige Fragestellung werden kann:

es gibt eine Fragestellung: http://jbusse.de/traktate/StudienarbeitFrageAntwort.html
die Fragestellung ist konkret, interessant, angewandt: http://jbusse.de/traktate/Fragestellung_FH.html
die Fragestellung ist wahrheitsfähig: http://jbusse.de/traktate/WissenschaftWahrheitsfaehig.html

Zur Methode wissenschaftlichen Arbeitens, Zitierweise etc. empfehle ich dringend die Leküre von

Kornmeier, Martin: Wissenschaftlich schreiben leicht gemacht. Bern, UTB 2021, https://flatp20.bib-bvb.de/search?bvnr=BV047303491

Falls keine Ausnahme vorliegt, gilt für Abschlussarbeiten bei mir folgendes:

WIF ist eine gestaltungs- und anwendungsorientierte Disziplin. Abschlussarbeiten lösen idealerweise ein konkretes anwendungsorientiertes Problem.
WIF-Absolventen unterscheiden sich von Studierenden nicht-informatischer Fächer dadurch, dass sie programmieren können. In einer Abschlussarbeit muss auch auch etwas programmiert oder codiert werden (bei mir idealerweise in Python).
Aufgabenstellungen sind idealerweise so beschaffen, dass sich im Prinzip nachprüfen lässt, ob eine Lösung ein Problem tatsächlich löst.

Die Anmeldung der Abschlussarbeit setzt ein kurzes Exposé im Umfang von ca. 100 Wörtern voraus.

Betreuung#

Für eine Bachelorarbeit werden einem Dozenten 0.2 SWS auf das Lehrdeputat angerechnet (resp. Masterarbeit 0.4 SWS), also etwa 10 Bachelorarbeiten (resp. 5 Masterarbeiten) ähnlich ein Seminar, eine Übung a 2 SWS – und zwar komplett incl. Themenfindung, Orga, inhaltliche Betreuung, Feedback, Korrektur. Das ist nicht viel. Bereiten Sie also die Treffen mit Ihrem Dozenten so vor und nach, dass Ihre Zeit und die des Betreuers Wertschätzung genießt.

Themen und Ideen#

Stilometrie#

NEU 2025-07-21

Um die inhaltliche Ähnlichkeit von Texten durch eine Zahl zwischen 0 und 1 auszudrücken kann man z.B. messen, wie viele “wichtige Wörter” mit ähnlicher Bedeutung es in beiden Texten gibt. Dazu stellt man die Texte als einen Vektor von normaliserten “wichtigen” Wörtern dar, der Cosinus-Winkel zwischen zwei Wortvektoren zeigt dann die Ähnlichkeit an.

Ein ähnliches Verfahren kann man anwenden, um die stilistische Ähnlichkeit zu berechnen. Dabei ignorieren wir inhaltliche Ähnlichkeit komplett und bilden Text-Vektoren ausschließlich auf Basis von syntaktischen, grammatikalischen, stilistischen etc. Eigenschaften (Beispiele: StyloMetrix DE). Wenn sich zwei Texte stilistisch ähnlich sind ist das ein guter Hinweis darauf, dass sie vermutlich auch vom selben Autor sind (die Umkehrung gilt nicht unbedingt).

Literatur:

Theorie: Karol Przystalski, Jan K. Argasinski, Iwona Grabska-Gradzinska, Jeremi Ochab: Stylometry recognizes human and LLM-generated texts in short samples https://arxiv.org/pdf/2507.00838v1
Tool: ZILiAT-NASK/StyloMetrix

Wir versuchen Teile dieses Aufsatzes in unserer Lehre zu replizieren und zu übertragen.

Im Rahmen des FWPF Textmining bitten wir jeden Teilnehmer, drei kurze lexikonartige Texte (Umfang ca. 200 Wörter) zu einem beliebigen Thema seines Interessensbereichs zu schreiben – mit Rechtschreibkorrektur (z.B. mit MS Word oder Libre Office), aber ohne Grammatik-Korrektur durch ein LLM; es entsteht ein Korpus aus Rohtexten. Diese Rohtexte führen wir einer Grammatik-Korrektur durch DeeplWrite zu, es entsteht ein Korpus aus DeeplWrite-Texten. Außerdem lassen wir die Rohtexte durch eine umfassende generative KI wie z.B. ChatGPT verbessern (zusammenfassen, erweitern?), es entsteht ein ChatGPT-Korpus.

Im Rahmen des Master-Moduls Data Science wollen wir einen Klassifikator bauen, der Rohtexte von LLM-korrigierten Texten unterscheiden kann: geht das?

Die Abschlussarbeit hat entsprechend 2 Teile und kann ggf. auch getrennt durchgeführt werden.

Teil 1:

Oktober 2025: technisches Erzeugen des Korpus’
bis Ende November 2025: prototypisches vektorisieren die einzelnen Texte der verschiedenen Korpora in Hinblick auf stilistische Eigenschaften
- Pflicht: in Bezug auf Grammatik vor allem mit Hilfe der NLP-Bibliothek SpaCy
- Kür: ergänzend auch durch selbst entwickelte Charakteristika, die von SpaCy nicht abgedeckt werden könen (wie z.B. Layout, Textgliederung, Überschriften)
bis Abgabe: Konsolidierung, Ausarbeitung, Dokumentation
Ziel ist eine gut dokumentierte Publikation des Korpus

Teil 2: Analyse des Korpus mit überwachten Methoden des Machine Learning (insbesondere Klassifikation mit linearer Regression; Bewertung durch Confusion Matrix, AUC etc.):

Klappt die Zuschreibung von Autorschaft bei den Rohtexten?
Wie gut ist die Unterscheidung von Rohtext und LLM?

GovData Parkhausbelegung#

Wir nehmen an, dass wir ein junges Startup sind und Geld im Bereich Smart City Parkhausbelegung verdienen wollen. Unsere KI benötigt dazu Daten zu allen belegten und freien Parkplätzen in den Parkhäusern der BRD – nach Möglichkeit in Echtzeit.

Im Prinzip benötigen wir für unsere KI inbesondere die folgenden zwei Tabellen:

Tabelle Parkhäuser Stammdaten: Parkhaus-ID, Adresse (PLZ, Ort, Straße), Anzahl Parkplätze, Öffnungszeiten
Tabelle Parkhäuser Belegung: Parkhaus-ID, Zeitstempel, geöffnet (Ja/Nein), freie Plätze, belegte Plätze

Ein guter Startpunkt für die Stammdaten von Parkhäusern könnten wir kostenpflichtig bei Anbietern wie z.B. https://listflix.de/dienstleistung/parkhaeuser/, https://adressbar.de/branchendetail/Parkhaeuser-579 etc. erwerben. Wir wollen Teile dieser Liste aber aus öffentlich verfügbaren Daten selbst erstellen. (Wir befassen uns hier primär mit Parkhäusern. In einer realen Anwendung sind wir allerdings an allen Parkmöglichkeiten interessiert. Das kann komplex werden, sihe z.B. https://opendata.muenchen.de/dataset/opendata_ruhver_parkseiten_line.)

Die Plattform GovData.de setzt es sich explizit zum Ziel, Daten wie solche verfügbar zu machen. Einige Städte liefern fleißig mehr oder weniger Metadaten an, wo aktuelle Belegungsdaten auzufinden sind. Natürlich wäre es mühsam, diese Daten manuell zusammenzusammeln und zu integrieren, wollen wir das natürlich automatisieren.

Die Abschlussarbeit soll:

eine zweite Datenbank aufbauen, in der alle relativ leicht verfügbaren Quellen von Parkhaus-Belegungsdaten verzeichnet sind – aus govdata.de und auch anderen Quellen.
Abläufe entwickeln, wie wir auf Grundage dieser zweiten Datenbank unsere eigene Parkhausbelegungs-Datenbank mit möglichst geringem Verzug aufbauen und aktuell halten können.

Das eigentliche Ziel der Abschlussarbeit besteht darin zu evaluieren, wie geeignet uns die auf GovData verfügbaren Daten und Metadaten im Aufbau unserer zweiten Datenbank unterstützen.

Wie gut lassen sich die Parkhäuser, Parkhaus-Stammdaten, Belegungsdaten recherchieren?
Wie gut unterstützt uns die informations-logistische Infrastruktur, die uns GovData bereitstellt?

Argumentations-Graphen#

Im SS 2025 ist das Thema “Analyse von Argumentationen” ein Schwerpunktthema von JB.

Worum geht es in dieser Abschlussarbeit?

Literaturübersicht über Notationen zur Visualisierung und Formalisierung von Argumentationen
Anwendung der Visualisierung auf Argumentationen aus dem FWPF “Ethik der KI” und Bachelor Seminar “Argumenatationsgraphen”. (Eine passive, beobachtende, interpretierende Teilnahme an dem FWPF und Bachelorseminar wird erwartet.)

Zum Einlesen:

https://en.wikipedia.org/wiki/Argumentation_scheme
insbedondere das Buch Walton, Douglas N.; Reed, Chris; Macagno, Fabrizio (2008). Argumentation schemes. Cambridge; New York: Cambridge University Press. doi:10.1017/CBO9780511802034. ISBN 9780521897907. OCLC 181424052. pdf Bibliothek Landshut: https://flatp20.bib-bvb.de/search?bvnr=BV043923698
https://www.researchgate.net/publication/335061726_Decision_Making_with_Argumentation_Graphs?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6Il9kaXJlY3QiLCJwYWdlIjoiX2RpcmVjdCJ9fQ

Aktuelle Fragestellung: Wie überzeugend argumentiert ChatGPT?

https://journals.sagepub.com/doi/full/10.3233/AAC-210026 > (pdf)

Der Großteil der Literatur ist auf EN. Insbesondere das Buch von Walton ist in einem anspruchsvollen, z.T. literarischen EN geschrieben. Sehr gute Lese-Kenntnisse in EN sind unbedingt erforderlich, maschinelle Übersetzungen sind leider kein vollwertiger Ersatz.

Dokumenten-Ähnlichkeit (hier auf Absatz-Ebene) mit LSH Hashing#

Intro:

Unserere definitive Theorie: Kapitel 3.2 Shingling of Documents, 3.3 Similarity-Preserving Summaries of Sets und 3.4 Locality-Sensitive Hashing for Documents in Mining of Massive Datasets von Jeffrey D. Ullman

http://www.mmds.org/ > http://infolab.stanford.edu/~ullman/mmds/ch3n.pdf

Unsere Anwendung, gegeben:

Ein Absatz aus einem Fließtext in DE, mit typischerweise 50-200 Wörtern

gesucht:

die 5 ähnlichsten Absätze aus allen Artikeln der deutschen Wikipedia
wir können dann den Titel der entsprechenden Wikipedia-Seiten als Schlagworte für unseren gegebenen Absatz verwenden

Vorgehen:

Bibliotheken suchen
geeigneten DE Wikipedia downloaden (da gibt es viele Lösungen, die geeignetste recherchieren; z.B. https://radimrehurek.com/gensim/scripts/segment_wiki.html ?)
Wikipediatext geeignet säubern (auch hier existierende Lösungen recherchieren), in Absätze zerlegen

Domäne: Segeln; Liste von Gewässern:

Markdown-Glossar aus SKOS#

gegeben:

eine Terminologie als RDF-Graph gemäß dem Schema https://de.wikipedia.org/wiki/Simple_Knowledge_Organisation_System | https://www.w3.org/2004/02/skos/

gesucht:

Ein Export der Terminologie in ein Glossar im Format Markdown.

Weg: Abfrage eines RDF-Graphen mit SPARQL ergibt einen Graph oder eine Tabelle. Beispiel für SPARQL: http://jbusse.de/2023_ss_logd/t_sparql.html | http://jbusse.de/2023_ss_logd/govdata-sparql.html

Auf diesen Ergebnissen der Graph-Abfrage aufbauen eine schöne (und insbesondere auch mit Links vernetzte) textuelle Darstellung in Markdown erzeugen.

Das gibt es schon, z.B.

https://skos-play.sparna.fr/play/about (Java)
ternaustralia/vocview (Python)

Warum nochmal machen?

Wir benötigen Markdown als Output – aber das könnte man auch erreichen durch eine Erweiterung oder Parametrisierung bestehender Lösungen.
Eigentlich geht es um eine didaktische Demo, wie man aus einem (einfachen) RDF-Graphen mit SPARQL etc. wieder einen (nicht so komplizierten) Text erstellt.

Ziel ist eine minimale, einfache, selbstgemachte Lösung. Mithin eine kleine Programmier-Aufgabe plus Beispiel-Terminologie.

Myst-Markdown Präprozessor#

Gegeben:

ein Aufsatz in Myst-Markdown, der auf externe Links verweist, insbesondere auf Wikipedia

Gesucht:

eine neue Rolle wie z.B. , die den Link einer Python-Funktion abc() übergibt und den Output dieser Funktion dem Rendering übergibt

Lösungsansätze:

einen eigenen Parser bauen? (regex ist nicht ausreichend, da wir mit geschachtelten Kalmmerausdrücken aller Art rechnen müssen.)
Explorativ ausprobieren und dokumentieren, wie man das mit dem Myst-Parser macht? siehe auch Working with the MyST AST.

Idee: Baue ähnlich dem C-Präprozessor cpp einen Myst-Markdown Präprozessor … ggf. auch unter Verwendung des Python Myst Parser, siehe https://pypi.org/project/myst-parser/ resp. https://myst-parser.readthedocs.io/en/latest/.

Working with the MyST AST#

Gegeben: Ein Markdown-Dokument.

gesucht: eine “grober” abstrakter Syntaxbaum, der immerhin erkennt:

block: Überschriften, Paragraphs
inline: Links incl. korrekter Klammerung, Beispiel:
- (z.B. ein Link mit [eckigen Klammern])
- (z.B. [ein Link mit [eckigen Klammern]](http://examle.com/ecke()))
Fencing

Markdown Parser:

https://markdown-it-py.readthedocs.io/en/latest/

ggf. auch

https://myst-tools.org/docs/spec#working-with-the-myst-ast

Textmining (dsci-txt)#

Im Sommer 2023 hat zuletzt das FWPF Text Mining stattgefunden. Im Rahmen dieses Faches gibt es bereits einige Problemlösungen, siehe

http://jbusse.de/dsci-txt/c.html

Einige dieser Notebooks lassen sich zu Abschlussarbeiten ausbauen. Voraussetzung ist eine (ggf. auch erneute) Teilnahme im FWPF ohne Klausur, Vorteile:

Sie haben ein Fach als Grundlage der Bachelorarbeit.
Ich muss die selben Dinge nicht jedes mal einzeln erklären.
Sie haben einen kleinen Forschungskontext, Gesprächspartner etc.