Themen für Abschlussarbeiten#
Liebe Studierende,
seit einiger Zeit sind Abschlussarbeiten bei mir „defaultmäßig“ in den Themenbereichen Linked Open Data (LOD), Textmining, Information Retrieval, Data Science und seit SS 2025 neu auch Semantic Web angesiedelt. (Data Science wird inzwischen primär von den Kollegen der KI abgedeckt.) Wenn Sie ein Thema suchen, können Sie sich gerne auf dieser Seite inspirieren lassen. Und selbstverständlich freue ich mich auch über eigene Themenvorschläge!
Wenn Sie eine Abschlussarbeit aus dem Bereich Linked Open Data anfertigen wollen, empfehle ich eine Teilnahme (gerne ohne Klausur etc.) an der Veranstaltung http://jbusse.de/logd/, idealerweise am Kickoff http://jbusse.de/logd/logd-tut#logd-block-1
Wenn Sie eine Abschlussarbeit aus dem Bereich Text Mining anfertigen wollen, setze ich voraus, dass Sie den Stoff aus der Veranstaltung https://www.jbusse.de/dsci-txt/dsci-txt-tut.html (zuletzt gelesen SS 2023) beherrschen.
Rahmenbedingungen#
Wichtig ist mir, dass Sie selbst ein fachliches Interesse haben. Ein solches müssen Sie selbst mitbringen - denn was Sie interessiert, kann ich ihnen nicht sagen. Idealerweise sind Sie Ihrem Interesse schon in Ihrer Studienzeit in einer Veranstaltung, einem Job, einem Hobby nachgekommen.
Bei einem Becher Kaffee in der ZH-Cafeteria berate ich Sie dann, wie aus Ihrem allgemeinen fachlichen Interesse eine konkrete, bearbeitbare, wahrheitsfähige Fragestellung werden kann:
es gibt eine Fragestellung: http://jbusse.de/traktate/StudienarbeitFrageAntwort.html
die Fragestellung ist konkret, interessant, angewandt: http://jbusse.de/traktate/Fragestellung_FH.html
die Fragestellung ist wahrheitsfähig: http://jbusse.de/traktate/WissenschaftWahrheitsfaehig.html
Zur Methode wissenschaftlichen Arbeitens, Zitierweise etc. empfehle ich dringend die Leküre von
Kornmeier, Martin: Wissenschaftlich schreiben leicht gemacht. Bern, UTB 2021, https://flatp20.bib-bvb.de/search?bvnr=BV047303491
Falls keine Ausnahme vorliegt, gilt für Abschlussarbeiten bei mir folgendes:
WIF ist eine gestaltungs- und anwendungsorientierte Disziplin. Abschlussarbeiten lösen idealerweise ein konkretes anwendungsorientiertes Problem.
WIF-Absolventen unterscheiden sich von Studierenden nicht-informatischer Fächer dadurch, dass sie programmieren können. In einer Abschlussarbeit muss auch auch etwas programmiert oder codiert werden (bei mir idealerweise in Python).
Aufgabenstellungen sind idealerweise so beschaffen, dass sich im Prinzip nachprüfen lässt, ob eine Lösung ein Problem tatsächlich löst.
Die Anmeldung der Abschlussarbeit setzt ein kurzes Exposé im Umfang von ca. 100 Wörtern voraus.
Betreuung#
Für eine Bachelorarbeit werden einem Dozenten 0.2 SWS auf das Lehrdeputat angerechnet (resp. Masterarbeit 0.4 SWS), also etwa 10 Bachelorarbeiten (resp. 5 Masterarbeiten) ähnlich ein Seminar, eine Übung a 2 SWS – und zwar komplett incl. Themenfindung, Orga, inhaltliche Betreuung, Feedback, Korrektur. Das ist nicht viel. Bereiten Sie also die Treffen mit Ihrem Dozenten so vor und nach, dass Ihre Zeit und die des Betreuers Wertschätzung genießt.
Themen und Ideen#
GovData Parkhausbelegung#
Wir nehmen an, dass wir ein junges Startup sind und Geld im Bereich Smart City Parkhausbelegung verdienen wollen. Unsere KI benötigt dazu Daten zu allen belegten und freien Parkplätzen in den Parkhäusern der BRD – nach Möglichkeit in Echtzeit.
Im Prinzip benötigen wir für unsere KI inbesondere die folgenden zwei Tabellen:
Tabelle Parkhäuser Stammdaten: Parkhaus-ID, Adresse (PLZ, Ort, Straße), Anzahl Parkplätze, Öffnungszeiten
Tabelle Parkhäuser Belegung: Parkhaus-ID, Zeitstempel, geöffnet (Ja/Nein), freie Plätze, belegte Plätze
Ein guter Startpunkt für die Stammdaten könnten wir kostenpflichtig bei Anbietern wie z.B. https://listflix.de/dienstleistung/parkhaeuser/, https://adressbar.de/branchendetail/Parkhaeuser-579 etc. erwerben. Wir wollen Teile dieser Liste aber aus öffentlich verfügbaren Daten selbst erstellen.
Die Plattform GovData.de setzt es sich explizit zum Ziel, Daten wie solche verfügbar zu machen. Einige Städte liefern fleißig mehr oder weniger Metadaten an, wo aktuelle Belegungsdaten auzufinden sind. Natürlich wäre es mühsam, diese Daten manuell zusammenzusammeln und zu integrieren, wollen wir das natürlich automatisieren.
Die Abschlussarbeit soll:
eine zweite Datenbank aufbauen, in der alle relativ leicht verfügbaren Quellen von Parkhaus-Belegungsdaten verzeichnet sind – aus govdata.de und auch anderen Quellen.
Abläufe entwickeln, wie wir auf Grundage dieser zweiten Datenbank unsere eigene Parkhausbelegungs-Datenbank mit möglichst geringem Verzug aufbauen und aktuell halten können.
Das eigentliche Ziel der Abschlussarbeit besteht darin zu evaluieren, wie geeignet uns die auf GovData verfügbaren Daten und Metadaten im Aufbau unserer zweiten Datenbank unterstützen.
Wie gut lassen sich die Parkhäuser, Parkhaus-Stammdaten, Belegungsdaten recherchieren?
Wie gut unterstützt uns die informations-logistische Infrastruktur, die uns GovData bereitstellt?
Argumentations-Graphen#
Im SS 2025 ist das Thema “Analyse von Argumentationen” ein Schwerpunktthema von JB.
Worum geht es in dieser Abschlussarbeit?
Literaturübersicht über Notationen zur Visualisierung und Formalisierung von Argumentationen
Anwendung der Visualisierung auf Argumentationen aus dem FWPF “Ethik der KI” und Bachelor Seminar “Argumenatationsgraphen”. (Eine passive, beobachtende, interpretierende Teilnahme an dem FWPF und Bachelorseminar wird erwartet.)
Zum Einlesen:
insbedondere das Buch Walton, Douglas N.; Reed, Chris; Macagno, Fabrizio (2008). Argumentation schemes. Cambridge; New York: Cambridge University Press. doi:10.1017/CBO9780511802034. ISBN 9780521897907. OCLC 181424052. pdf Bibliothek Landshut: https://flatp20.bib-bvb.de/search?bvnr=BV043923698
Aktuelle Fragestellung: Wie überzeugend argumentiert ChatGPT?
Der Großteil der Literatur ist auf EN. Insbesondere das Buch von Walton ist in einem anspruchsvollen, z.T. literarischen EN geschrieben. Sehr gute Lese-Kenntnisse in EN sind unbedingt erforderlich, maschinelle Übersetzungen sind leider kein vollwertiger Ersatz.
Dokumenten-Ähnlichkeit (hier auf Absatz-Ebene) mit LSH Hashing#
Intro:
Unserere definitive Theorie: Kapitel 3.2 Shingling of Documents, 3.3 Similarity-Preserving Summaries of Sets und 3.4 Locality-Sensitive Hashing for Documents in Mining of Massive Datasets von Jeffrey D. Ullman
Unsere Anwendung, gegeben:
Ein Absatz aus einem Fließtext in DE, mit typischerweise 50-200 Wörtern
gesucht:
die 5 ähnlichsten Absätze aus allen Artikeln der deutschen Wikipedia
wir können dann den Titel der entsprechenden Wikipedia-Seiten als Schlagworte für unseren gegebenen Absatz verwenden
Vorgehen:
geeigneten DE Wikipedia downloaden (da gibt es viele Lösungen, die geeignetste recherchieren; z.B. https://radimrehurek.com/gensim/scripts/segment_wiki.html ?)
Wikipediatext geeignet säubern (auch hier existierende Lösungen recherchieren), in Absätze zerlegen
Kap 3.2 bis 3.4 anwenden
Domäne: Segeln; Liste von Gewässern:
Markdown-Glossar aus SKOS#
gegeben:
eine Terminologie als RDF-Graph gemäß dem Schema https://de.wikipedia.org/wiki/Simple_Knowledge_Organisation_System | https://www.w3.org/2004/02/skos/
gesucht:
Ein Export der Terminologie in ein Glossar im Format Markdown.
Weg: Abfrage eines RDF-Graphen mit SPARQL ergibt einen Graph oder eine Tabelle. Beispiel für SPARQL: http://jbusse.de/2023_ss_logd/t_sparql.html | http://jbusse.de/2023_ss_logd/govdata-sparql.html
Auf diesen Ergebnissen der Graph-Abfrage aufbauen eine schöne (und insbesondere auch mit Links vernetzte) textuelle Darstellung in Markdown erzeugen.
Das gibt es schon, z.B.
ternaustralia/vocview (Python)
Warum nochmal machen?
Wir benötigen Markdown als Output – aber das könnte man auch erreichen durch eine Erweiterung oder Parametrisierung bestehender Lösungen.
Eigentlich geht es um eine didaktische Demo, wie man aus einem (einfachen) RDF-Graphen mit SPARQL etc. wieder einen (nicht so komplizierten) Text erstellt.
Ziel ist eine minimale, einfache, selbstgemachte Lösung. Mithin eine kleine Programmier-Aufgabe plus Beispiel-Terminologie.
Myst-Markdown Präprozessor#
Gegeben:
ein Aufsatz in Myst-Markdown, der auf externe Links verweist, insbesondere auf Wikipedia
Gesucht:
eine neue Rolle wie z.B. , die den Link einer Python-Funktion
abc()
übergibt und den Output dieser Funktion dem Rendering übergibt
Lösungsansätze:
einen eigenen Parser bauen? (regex ist nicht ausreichend, da wir mit geschachtelten Kalmmerausdrücken aller Art rechnen müssen.)
Explorativ ausprobieren und dokumentieren, wie man das mit dem Myst-Parser macht? siehe auch Working with the MyST AST.
Idee: Baue ähnlich dem C-Präprozessor cpp einen Myst-Markdown Präprozessor … ggf. auch unter Verwendung des Python Myst Parser, siehe https://pypi.org/project/myst-parser/ resp. https://myst-parser.readthedocs.io/en/latest/.
Working with the MyST AST#
Gegeben: Ein Markdown-Dokument.
gesucht: eine “grober” abstrakter Syntaxbaum, der immerhin erkennt:
block: Überschriften, Paragraphs
inline: Links incl. korrekter Klammerung, Beispiel:
(z.B. [ein Link mit [eckigen Klammern]](http://examle.com/ecke()))
Fencing
Markdown Parser:
ggf. auch
Textmining (dsci-txt)#
Im Sommer 2023 hat zuletzt das FWPF Text Mining stattgefunden. Im Rahmen dieses Faches gibt es bereits einige Problemlösungen, siehe
Einige dieser Notebooks lassen sich zu Abschlussarbeiten ausbauen. Voraussetzung ist eine (ggf. auch erneute) Teilnahme im FWPF ohne Klausur, Vorteile:
Sie haben ein Fach als Grundlage der Bachelorarbeit.
Ich muss die selben Dinge nicht jedes mal einzeln erklären.
Sie haben einen kleinen Forschungskontext, Gesprächspartner etc.