Skizze Bachelorarbeit 2019-03-20 (DE)

Dieser Text: Skizze für ein Exposé für ein Masterarbeits-Stipendium für meine Veranstaltung MaW; zugrundeliegende Strukturempfehlung: https://www.uni-osnabrueck.de/fileadmin/documents/public/4_forschung/4.3_nachwuchsfoerderung/zepros/Wie_schreibe_ich_ein_wissenschaftliches_Exposé_19042018.pdf

Problemstellung

Themenfeld Machine Learning für Text-Klassifikation, https://en.wikipedia.org/wiki/Bag-of-words_model: Ein Text (z.B. ein Wikipedia-Artikel) wird im Feature Space repräsentiert durch die Wörter, die in ihm vorkommen ... "breite" Matritzen, sehr viel mehr (typischerweise 1.000-100.000) Attribute (hier: Wörter, die in der Wikipedia insgesamt vorkommen) als Zeilen (hier: Wikipedia-Artikel), d.h. p >> n ... sog. dünn besetzte Matritzen: sind fast überall (oft zu 99%) Null ... lineare Abhängigkeit zwischen Attributen ... typische Regressions-Algorithmen, die unter diesen Bedingungen hervorragende Ergebnisse liefern, schnell sind und gut skalieren: logistische Regression, ridge, Lasso, ElasticNet (Friedman 2005).

Problem: in einer Domäne wohlbekannte semantische Abhängigkeiten zwischen Attributen sind in der rohen Feature Matrix nicht repräsentiert.

Idee: Nutze Wissensrepräsentationen (z.B. SKOS-Thesaurus) aus dem Bereich Semantic Web, um das nachfolgende Machine Learning zu verbessern ... semanisches Feature Engineering ... einerseits Bereinigung der Feature Matrix, aber auch Anreicherung um neue Features (feature engineering) ... Spalten zusammenzufassen, ggf. neue Spalten anlegen, Werte zwischen Attributen semantisch begründet diffundieren, durchsickern, überfließen lassen

Zielsetzung

Bereits in Rohform implementiert ist eine Funktion semanticFeatureEngineering(DataFrame, Wissensrepräsentation, InferencingStrategie). Ziel der Arbeit ist es, die Parameter dieser Funktion - insbesondere eine Konfiguration aus Wissensrepräsentation und zugehöriger Inferencing Strategie - auf die Eigenschaften verschiedener Test-Datensätze einzustellen, zu variieren und die Auswirkungen auf das downstream machine learning zu beschreiben:

Minimalziel: qualitative Beschreibung des Einflusses verschiedener Konfigurationen von Wissensrepräsentation und Inferencing-Strategie auf das ML
Idealziel: finde Hypothesen und ggf. Strategien, welche Konfigurationen bei einem gegebenen Datensatz qualitativ zu verbessertem ML führen sollten
optional: entwickle Maße und Metriken, um das Zusammenspiel von Konfiguration, Daten und ML auch quantitativ beschreiben zu könen

Allgemein dient die Arbeit vorwiegend dazu, Hypothesen zu generieren, welche Konfigurationen des semantischen Feature-Engineerings warum erolgreich sein könnten. Konkret soll gezeigt werden, dass es überhaupt Konfigurationen gibt, die ein Downstream ML verbessern (qualitativ, idealerweise quch quantitativ).

Ergebnissicherung: Ein schriftlicher Bericht in Form eines Jupyter-Notebooks, in welchen die Experimente lauffähig nachvollziehbar dokumentiert werden und bei Bedarf auch weiter verfolgt werden können. Da es sich bei dieser Form der Ergebnisssicherung um die Anwendung von Technologien handelt, die noch keine 3 Jahre verfügbar sind und sich z.T. in rasanter Entwickung befinden, ist die adäquate Verwendung innovativer Technologie auch das Teil der Arbeit.

Stand der Forschung

TBD, 2bd ("to be done"): RECHERCHE

Einlesen: Ristoski 2016

Vorarbeiten

Einarbeitung in das Thema ML hat im Rahmen einer vorangehenden Studienarbeit / Seminar stattgefunden ... HiWi-Tätigkeit ...

Einarbeitung in die Technik: ein virtuelles Forschungs-"Labor" ist bereits eingerichtet, d.h. Anaconda, GitHub-Account läuft ... Start-Datensatz ist zugänglich (kompexere Datensätze müssen noch gefunden werden) ... theoretische Einarbeitung in das Thema regularisierte Regression hat stattgefunden auf Basis von Bowles: Machine Learning with Python, insbes. Kap. 4 und 5

Vorgehensweise und Methoden

Als Einstiegs-Beispiel für die qualitative Untersuchung eignet sich der bekannte Titanic-Datensatz bestens, eben weil er so gut verstanden ist und ggf. sogar als erster Benchmark dienen kann.

qualitative Experimente, Vorher-Nachher-Vergleich (z.B. logistische Regression, logistisches ElasticNet):

Wie verändern sich die ML-KPI, wenn man die Wissensrepräsentation zunehmend mit (für den Datensatz relevantem) Wissen manuell anfüllt?
Wie kann man die Wissensrepräsentation manuell "tunen", um bessere Scoring-Werte zu erreichen? Ziel: Ein Verständnis gewinnen, wie eine ideale Wissensrepräsentation überhaupt aussieht
Welche Wissensrepräsentationen gibt es im Netz, die das manuelle Tuning automatisierbar machen?

Machine Learning Key Performance Indicators (ML-KPI)

einschlägige Scores: r, accuracy, f1, AUC etc.
Lernaufwand; Vorhersage-Aufwand
Generalisierbarkeit des Modells, Vorhersagbarkeit der Performanz
Erklärbarkeit

Zeit- und Arbeitsplan

letzte Vorbereitungen ab sofort:

Installation von Jupytext
Auswahl Citations-Tool

Beginn der Arbeit: 1.4.2019; Ende (harte Deadline): 1.7.2018

Literatur

Ristoski 2016: Petar Ristoski, Heiko Paulheim: Semantic Web in data mining and knowledge discovery: A comprehensive survey. Journal of Web Semantics, Volume 36, 2016, Pages 1-22, ISSN 1570-8268, https://doi.org/10.1016/j.websem.2016.01.001. (http://www.sciencedirect.com/science/article/pii/S1570826816000020) Download als pdf sowie als html (!) online: https://www.sciencedirect.com/science/article/pii/S1570826816000020