Evaluation von Ontologien (EvO)
Contents
Evaluation von Ontologien (EvO)#
2022-05-11, 18-19:30 Uhr#
Teil A: Problem und ein Lösungsansatz
Motivation und einführendes Beispiel die Schnitzel-Ontologie: Schnitzel (DE).
Meine Lösung zur Eval: Ontologie-Evaluation mit MC-Tests
Teil B: Philosophische Erkundungen
Warum ist EvO interessant?#
Die philosophische Ontologie beschäftigt sich mit der Beschreibung dessen, was ist. Eine Semantic Web Ontologie will sehr viel weniger. Sie ist eigentlich nur ein formales Modell wie jedes andere formale Modell auch - allerdings mit einem Anspruch, der die grundlegende Bedeutung einer philosophischen Ontologie zwar zurückweist, aber sich doch dieser Tradition versichert. Weil Ontologien Begriffe definieren und Sprachgebrauch normieren, greifen sie doch in das Denken ein. Sie entfalten also eine andere Wirkung als andere formale Modelle.
Die Ontologien, die mich interessieren, sind kleine, überschaubare, domänenspezifische Ontologien, mit einem Umfang von einigen Dutzend Kategorien, mit denen dann im Prinzip beliebig viele Instanzen geordnet werden können. Ein typisches Beispiel mögen die Seiten Wikipedia > Body of Water und Wikipedia > Gewässer sein: Die englische Seite können wir als ein Glossar verstehen, das von einer Ontologie noch weit entfernt ist, während die deutsche Seite einer Ontologie aus meinem Anwendungsgebiet schon recht nahe kommt. (Eine genauere Charakterisierung von Ontologie findet sich in Grundbegriffe: Thesaurus, Taxonomie, Ontologie. Für die im folgenden geführte Diskussion reicht ein allgemeineres, nicht streng definiertes Verständnis.)
Angenommen, wir haben z.B. auf Grundlage der deutschen Wikipedia-Seite zu Gewässer eine Semantic Web Ontologie (SWO) gebaut (Beispiele: Challenge: Wikipedia-Artikel “Gewässer”). Vermutlich wird sich diese an den Strukturen der Wikipedia-Seite orientieren, aber natürlich nicht 1:1 wiedergeben. Wir werden stillschweigend kleinere Ungenauigkeiten oder Widersprüche korrigiert, notwendige Ergänzungen hinzugefügt, und auch sonst ordnend eingegriffen haben. Als Ergebnis entstand eine SWO in einem Format, das wir in Protegé eingelesen konnten. Wir nehmen an, dass Protegé keine Fehler meldet und einer der eingebauten Reasoner fehlerfrei durchläuft. Dann stellt sich die Frage: Wie können wir unsere Ontologie beurteilen? “Gut” dürfte sie z.B. dann sein,
wenn sie mit unseren Vorstellungen und der realen Welt hinreichend übereinstimmt;
wenn sie sich in ein bestehendes Begriffs-System gut einfügt;
wenn sie mit einem strukturierten Vorgehensmodell entwickelt wurde.
Wir erkennen hier Parallelen zu den gängigen Wahrheitstheorien der Philosophie (Wikipedia > Wahrheit > Überblick) wieder:
(ontologische, metaphysische) Wikipedia > Korrespondenztheorie der Wahrheit: “Danach sind Aussagen genau dann wahr, wenn sie mit den Tatsachen in der objektiven Welt übereinstimmen (korrespondieren)”
Wikipedia > Kohärenztheorie: “In einem strengeren Sinn setzt Kohärenz nicht nur Konsistenz voraus, sondern fordert, dass zwischen den anderen Sätzen (Rechtfertigungen) Ableitungs-, Rechtfertigungs- und Erklärungsbeziehungen bestehen.”
Wikipedia > Konsenstheorie der Wahrheit: “… die erkenntnistheoretische Auffassung, dass die Wahrheit einer Behauptung davon abhängt, ob sich über diese Behauptung allein durch Argumente ein zwangfreier allgemeiner Konsens herstellen lässt. “
Über all das lässt sich leicht Konsens herstellen. Konfliktreich wird es, wenn wir uns im Detail einigen wollten,
wie man die “adaequatio rei ad intellectum” feststellen kann;
wie und ob man konkurrierende Begriffs-Systeme überhaupt vergleichen kann;
ob man Begriffe in ähnlicher Weise strukturiert und systematisch entwickeln kann wie andere industrielle Produkte.
Das sind die Gründe, warum die “Evaluation” von Ontologien einerseits in besonderer Weise spannend ist, andererseits keine einfachen Antworten zu erwarten sind. Natürlich liefert auch vorliegende Text kein Vorgehensmodell zur Evaluation von Ontologien. Er dient lediglich dazu - und aus philosophischer Sicht ist das schon ein hoher Anspruch - bestimmte Fragestellungen genauer zu konturieren.
Praxisbeispiel Wikipedia > Kalb#
Gedankenexperiment: Gegeben sei ein Text, der ein hinreichend gemeinsames Verständnis eines Sachverhaltes gemeinsprachlich wiedergibt. Beispiel:
Beim Rind wird das Junge bis zur Geschlechtsreife Kalb genannt, in der Regel also ein junges Rind beiderlei Geschlechts bis zur Vollendung des ersten Lebensjahres; ein Stier(en)kalb ist ein männliches Jungtier. Ein nur mit Milch aufgezogenes Jungtier des Rindes wird bis zum Gewicht von 150 kg als Milchkalb bezeichnet und ein Tier über 300 kg, das aber noch nicht geschlechtsreif ist, als Jungrind. Weibliche Jungtiere sind ab dann bis zur ersten Kalbung Färsen. https://de.wikipedia.org/wiki/Kalb (2022-04-17)
Wir beauftragen dann verschiedene Menschen mit einem Hintergrund in Mathematik, Logik oder Semantic Web, diesen Sachverhalt mindestens formal, möglicherweise sogar als Ontologie zu modellieren.
Empirie: Mit dem Wikipedia-Eintrag > Gewässer haben ein halbes Dutzend Experten solch eine Modellierungs-Challenge im Januar 2021 versucht und intensiv diskutiert. Dabei sind in verschiedenen Editier-Umgebungen (proprietär, Excel, Protege, Mindmap, Toscana) in verschiedenen Sprachen (proprietär, RDFS, SKOS, OWL Full, OWL2-RL, Formale Begriffsanalyse FCA) in unterschiedlichen Visualisierungen (GraphViz, Mindmap, Liniendiagramm eines Begriffsverbandes) sehr verschiedene Modelle entstanden - die allerdings kaum vergleichbar waren. (Siehe auch die Diskussion auf unserem Barcamp von Bernhard H., sowie Challenge: Wikipedia-Artikel “Gewässer”.)
Das ist normal: Jeder Experte behauptet, dass sein Modell den Sachverhalt angemessen abbildet. Gleichzeitig ist er auch derjenige, der die von ihm gewählte - bisweilen auch selbst definierte - Sprache am besten versteht, besser jedenfalls als die anderen Experten.
Es stellen sich Fragen wie:
Wie kann man feststellen, ob ein Modell einen – hier textuell kommunizierten – Sachverhalt “angemessen” wiedergibt?
Wie kann man die erzeugten Modelle vergleichen?
Wir konzeptualisieren wir “Wahrheit”, “Angemessenheit”?
All das sind typische Probleme jeder Modellbildung, und der bekannten Antworten sind es viele. Aber anders als bei anderen Modellen greifen Ontologien tief in unser Verständnis eines Gegenstandsbereichs ein. Eine Ontologiesprache gibt die die Möglichkeiten und Grenzen vor, mit denen Begriffssysteme aufgebaut und kommuniziert werden können. “Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt” konstatiert Wittgenstein im Traktatus im Satz 5.6, um sich dann aus der Philosophie zurückzuziehen und Dorfschullehrer zu werden.
Als Ontologen stellen wir und im Barcamp die Frage: Gibt es bei der Modell-Validierung besondere Probleme, die für Ontologien spezifisch sind - und möglicherweise manche bekannte Lösungsversuche nicht mehr anwendbar machen?
Terminologie als Artefakt der Design Science Research (DSR)#
Um eine Ontologie zu entwicklen gibt viele Gründe. Ich unterrichte Studierende an einer Hochschule für angewandte Wissenschaften, und auch unser Dagstuhl-Workshop hat “applied” im Titel. Also interessiert mich die Entwicklung von Ontologien nicht als philosophisches, sondern als anwendungsorientiertes Problem.
Die Unterscheidung von philosophischen und anwendungsorientierten Kontexten, und der Beitrag von Ontologien zur Lösung von anwendungsorientierten Problemen ist natürlich selbst wieder ein Problem, genauer ein wissenschaftstheoretisches Problem. Wir wollen also etwas anwendungsorientierte Wissenschaftstheoreorie betreiben.
Im Jahr 2004 publizierte A. Hevner einen maßgeblichen Aufsatz mit dem Titel “Design Science in Information Systems Research” 2004. Dieser angewandt-wissenschaftstheoretische Aufsatz ist außerhalb der Wirtschaftsinformatik weniger bekannt, für unseren Diskurskontext aber einschlägig. Hevner unterscheidet Wissenschaften, die Theorien entwickeln (von Hevner etwas irreführend behavioral sciences genannt) von Wissenschaften, die Artefakte gestalten, um Busines Probleme zu lösen, die sog. Design Sciences (DS).
Einige wichtige Abbildungen des DS-Diskurses insbesondere auch zur Evaluation von DS-Artefakten sind hier versammelt:
Typische Artefakte der DS sind nach Hevner nicht nur Softwaresysteme, sondern auch Methoden, Modelle, und an prominenter Stelle auch Terminologien. Vor dem Hintergrund dieser Diskussion bietet es sich an, eine Ontologie pragmatisch als ein Artefakt zu verstehen, das in einem gestaltungsorientierten Design Science Prozess bei der Lösung eines Busines Problems einen Beitrag leisten muss.
Im Rahmen der Design Science soll ein Artefakt eine Lösung liefern für relevante business needs, wie die im Environment auftreten. Es lohnt sich hier ein Blick in den Aufsatz selbst, z.B. hier:
Wenn man Forschung im Rahmen von Design Science (DS) betreibt, will man mit Rigor Lösungen entwickeln. Man wird eine Ontologie nicht als das interpetieren, was sie zwar zwinkernd, aber eben doch auch von sich behauptet, nämlich eine schwergewichtige begriffliche Grundlage einer Wissenschaft, eine Ontologie in philosophischem Sinn zu sein. Sondern man wird eine Ontologien als ein DS-Artefakt betrachten: Eine von vielen möglichen sprachlichen Konventionen; ein strukturwissenschaftliches, zweckorientiertes Begriffssystem; eine Terminologie, um genau definierte Business Probleme besser lösen zu können.