Die Dateiablage als semantisches Tagging-System
Sobald zwei oder mehr Personen gemeinsam eine Dateiablage einrichten und nutzen wollen, stellt sich die Frage: Wie wollen wir unsere Ordnerstruktur aufbauen und unsere Dateien benennen?
Wir rekonstruieren zunächst eine einfache Ordnungs-Systematik, die sowohl für Viel- wie auch für Gelegenheitsnutzer geeignet ist, und die intuitiv von vielen Nutzern schon immer praktiziert wird. In einem zweiten Schritt zeigen wir, wie mit innovativen Methoden aus dem Technologieumfeld Semantic Web gerade aus der Einfachkeit dieser Systematik ein Mehrwert für das Wissensmanagement generiert werden kann.
Neu ordnen einer bestehenden Dateiablage
Wir stellen uns vor, dass wir für ein bestimmtes Projekt mit anderen Personen ab heute gemeinsam eine hierarchische Dateiablage (Ordner auf der Festplatte, Dropbox etc.) nutzen wollen. Dann haben wir die (seltene!) Chance zu einem Neuanfang, in der wir eine neue Ordnungs-Systematik einführen und nutzen können.
Dass jeder Projektpartner bereits eine persönliche Festplatten-Biographie als Altslast mitbringt ist eher eine Chance als eine Belastung: Wir betrachten die existierenden und meist impliziten Ordnungs-Schemata als einen Korpus, in dem Strukturierunge-Wissen steckt, das wir explizit machen wollen.
Zielvorstellung:
Als regulatives Ideal streben wir ein Ordnungssystem an, in dem unsere Projekt-Inhalte sauber gegen ein gemeinsames kontrolliertes Vokabular verschlagwortet sind: Jeder Datei soll eine Menge von Schlagworten (ein sogenannter "Bag of Words") zugeordnet werden können.
Eine einfache Realisierung einer Verschlagwortung mit einem Bag of Words für unsere Festplatte geht so:
Harte Verschlagwortung
Ein Dateiname besteht (1) mindestens aus einer projektweit eindeutigen Datei-ID. Eine solche ID lässt sich sehr einfach aus einem dem Projektnamen sowie einem Zeitstempel generieren, z.B. "semantischGetaggteDateiablage_2011-03-07".
Ein Dateiname kann optional (2) eine Menge von Schlagworten erhalten. Diese beschreiben die Datei "hart", d.h. unabhängig von ihrem Ablageort im Dateisystem. Als harte Schlagworte bieten sich insbesondere Autorenkürzel oder Betriebswirtschaftliche Kategorien an, z.B. "semantischGetaggteDateiablage_jbusse.de_Angebot_2011-03-07".
NB: Unerlässlich sind hier strenge Konventionen an die Syntax von Dateinamen: Wenn das Datum im ISO-Format jjjj-mm-tt vorliegt kann man durch Sortieren die neueste Datei von archivierten Dateien unterscheiden (und kann somit auf "neu", "letze version", "allerletzeVersion" verzichten.) Den Unterstrich "_" verwenden wir ausschließlich zur Verkettung von Schlagworten im Dateinamen, den Bindestricht "-" ausschließlich innerhalb von Schlagworten oder Zeitangaben.
Schon mit solchen einfachen Konventionen lassen sich Dateien vergleichsweise gut ablegen und wiederfinden, versionieren und grob vorklassifizieren. Durch die "harte" Verschlagwortung im Dateinamen lassen sich die so explizt gemachten Metadaten insbesondere auch in email-gestützten Prozessen weiterreichen und handhaben.
Weiche Verschlagwortung
Wenn wir eine Datei in einer Ordner-Hierarchie ablegen, erhält sie (3) zusätzlich einen sogenannten Pfad, z.B. "jbusse/Dokument/Artikel/Entwurf/semantischGetaggte..." oder "jbusse/Shop/Artikel/..." .
Wir vereinfachen unsere Kommunikation im Unternehmen erheblich, wenn wir uns darauf einigen können, dass wir ausschließlich die Menge der in einem Pfad enthaltenen Tags als "weiche" Schlagworte einer Datei interpretieren.
Als Folge der Interpretation von Ordnernamen als kontextfreie Schlagwort können wir frei nach Usability-Aspekten entscheiden, wie wir unsere Ordner ineinander schachteln wollen, oder welche Schlagworte tyischerweise hart oder weich vergeben werden sollen.
Einstieg in das Terminologiemanagement
Mit der Einigung auf kontextfreie Schlagworte geht einher, dass z.B. das Schlagwort "Artikel" im Pfadfragment "Dokument/Artikel" und im Pfadfragment "Shop/Artikel" dasselbe bedeutet. (Wenn wir in unserm Beispiel zur Einsicht kommen sollten, dass das Wort "Artikel" je nach Kontext zwei unterschiedliche Bedeutungen hat, sollten wir Eindeutigkeit herstellen, indem wir den zweiten Pfad z.B. in "Shop/Shopitems" umbenennen.)
Indem wir uns in einem kleinen Team im Gespräch auf eine Menge von desambiguierten Schlagworten - ein sogenanntes kontrolliertes Vokabular - einigen, unternehmen wir erste Schritte im Bereich des Terminologiemanagements.
Sich auf gemeinsame Schlagworte zu einigen erfordert fast immer Mühe, und manchmal geht es nicht ohne gründliche sachliche Auseinandersetzungen. Der Mehrwert eines gemeinsam geteilten Verständnisses gemeinsamer Schlagworte wiegt diese Anfangsinvestitionen allerdings um ein Vielfaches auf.
NB: Es empfiehlt sich übrigens nicht, hierbei allzu päpstlich vorzugehen: Es spricht nichts dagegen, ergänzend zur Menge der wohldefinierten Schlagworte auch freie Schlagworte zu verwenden - solange diese nur von einer einzigen Person verwendet werden. Erst wenn solche Schlagworte gemeinsam zur Verschlagwortung genutzt werden, sollten sie in das kontrolliere Vokabular aufgenommen werden.
Semantisches Terminologiemanagement
Eine Datei durch einen Bag of Words zu beschreiben, abzulegen und zu suchen, ist eine überschaubare und wohlbekannte Methode. Innovativ wird es, wenn wir diese Methode mit Ansätzen des sog. SemanticWeb zusammenbringen.
Der aus informationstheoretischer Sicht entscheidende Schritt besteht darin, Schlagworte nicht mehr nur als Worte (term) zu behandeln, sondern als Etiketten (label) von eindeutig definierten Konzepten (concept) verstehen. Weil ein Konzept gleichzeitig verschiedene Schlagworte/Etiketten haben kann, können wir auch Pluralformen, englische Schlagworte oder Abkürzungen als gültige Repräsentationen eines Konzepts im Dateisystem zulassen.
Indem wir Konzepte zueinander in Bezug setzen, bauen wir ein semantisches Netz auf. Eine Konzept-Hierarchie entsteht, wenn wir etwa "Artikel" als ein Subkonzept von "Publikation", und dieses Konzept als ein Subkonzept von "Text" definieren. Konsequenterweise erwarten wir dann von einer Suche nach Dateien vom Konzept "Text" auch Dateien mit dem Schlagwort "Publikation" oder "Artikel" in der Ergebnismenge.
Weitergehend könnten wir unsere Konzept-Hierarchie in ein ausgewachsenes Klassifikationssystem überführen. Mit den Konzepten "conference" und "paper" verschlagwortete Dateien würden automatisch auch mit dem Konzept "scientific" klassifiziert werden.
Üblich ist es auch, eine Sache nicht nur durch Schlagworte, sondern durch Attribut-Schlagwort-Paare zu beschreiben, z.B. "NovelPrice_who:ChristianeNüssleinVolhard_year:1995_faculty:medicine". Sogar dies lässt sich im Dateisystem einfach abbilden, indem man ausgewählte Schlagwortketten als Attribut-Wert-Paare interpretiert (und damit die Forderung nach Kontextfreiheit vorsichig lockert): "NovelPrice/year/1995/faculty/medicine/ChristianeNüssleinVolhard.doc".
Klassischwerweise werden auch Teilmengen von Schlagworten gebildet, aus denen nur jeweils eines verwendet werden darf, z.B. "Angebot" oder "Rechnung" oder "Lieferschein"; oder man schränkt den Wertebereich für Attribute ein, z.B. auf bestimmte numerische Werte oder auf Subkonzepte bestimmter Oberkonzepte. Aus solchen sogenannten Wert-Partitionen kann ein entsprechendes System sogenannte Integritätsregeln ableiten, die eine gleichzeitige Verschlagwortung einer Datei durch "Angebot" und "Rechnung" oder das Attribut-Wert-Paar "year:germany" als fehlerhaft identifizieren.
Stand der Technik
Um all das zu realisieren bedarf es auf technischer Seite dreierlei. Erstens brauchen wir in der Praxis einfach zu handhabende Tools, mit denen wir Konzepte, Konzept-Hierarchien oder Klassifikationssysteme modellieren können. Der Markt bietet hier eine ganze Reihe von mehr oder wenigen komplexen Tools zur semantischen Wissensmodellierung an.
Zweitens brauchen wir sogenannte Inferencing-Systeme, mit denen Konzept-Hierarchien ausgewertet oder Klassifikationen ausgerechnet werden können; auch hier gibt es bereits bezahlbare Lösungen am Markt.
Drittens brauchen wir Benutzeroberflächen, mit denen sich eine solche semantisch organisierte Datenhaltung browsen und darstellen lässt - und leider wird es hier etwas dünn.
Eine leistungsfähige und funktionierende Technik vorausgesetzt muss noch etwas zweites gegeben sein: Die Anwender müssen gewillt sein, sich in ihrer Arbeit mit ihren Kollegen in eine zwar niedrigschwellige, aber doch stetige innerbetriebliche Begriffsarbeit einzulassen. Dazu müssen sie aber den Mehrwert erkennen, der sich im täglichen Arbeitskontext natürlich zuerst in der Benutzungsoberfläche zeigt.
Facettierte Klassifikation
Angesichts der Leistungsfähigkeit semantischer Technologien erscheint ein einfaches Dateisystem, mit dem wir unsere Reise begonnen hatten, natürlich als primitiv. Eine angemessene technische Lösung wäre ein sog. Virtuelles Dateisystem, das dem Anwender in Echtzeit nicht nur die vordefinierten, sondern sogar beliebige Ordner-Pfade und ihre Inhalte berechnet. Erst einmal auf den Geschmack gekommen wünschen wir uns dann auch weitergehende Technologien, mit denen wir unsere Dateien anhand ihrer Schlagworte komfortabel suchen und filtern können.
Eine meines Erachtens ultimative Methode, semantisch verschlagwortete Dateien zu recherchieren, wird mit dem Konzept des "Faceted Classification" realisiert. Unter der Demo http://orange.sims.berkeley.edu/cgi-bin/flamenco.cgi/nobel/Flamenco lassen sich NovellpeisträgerInnen nach Herkunft, Disziplin, Jahr etc. nachschlagen. Die Zahl der jeweils noch zur Verfügung stehenden Filterkriterien wird automatisch nach der noch verbleibenden Treffermenge neu berechnet.
Wenn ich mir vorstelle, dass ein solches System zusätzlich noch auf einem semantischen Backend aufbaut, kommen mir traditionelle (auch CMS-basierte) Ansätze der Dateiverwaltung geradezu antiquiert vor.
Ich bin überzeugt, dass dieser Form der Inhaltsorganisation die Zukunft gehört. Ein gut durchgeführtes semantisches Terminologiemanagement ist hierbei der Sprit, ohne den die neue Technolgie eine lahme Ente bleibt.
Der Beitrag zum Wissensmanagement
In nicht wenigen Unternehmen bildet das gemeinsam genutze Laufwerk die einzige langfristig stabile technische Kooperationsplattform. Die Diskrepanz zwischen eigentlich vordefinierter und faktisch vorfindlicher Ordnerstruktur ist eine wertvolle Quelle, um Ansatzpunkte organisationaler Verbesserunger identifizieren zu können.
Eine Menge von Schlagworten als ein semantisches Netz aufzuspannen und konsensual zu beschreiben ist ein erster niedrigschwellliger Einstig in das Terminologiemanagement.
Eine vorhanende Ordnerstruktur als Korpus heranzuziehen und in einem moderierten Prozess begrifflich zu analysieren bietet einen wunderbaren Anlass, wieder einmal ins Gespräch zu kommen - vor allem zwischen Mitarbeitern, die eben nicht schon täglich eng miteinander zu tun haben, insbesondere auch zwischen unterschiedlichen Hierarchien.
Wenn dann die Ergebnisse einer gemeinsamen Terminologien auch noch nachhaltig und leicht zugänglich dokumentiert und kollaborativ weiter gepflegt werden können, wird sich die Mühe um eine gemeinsame Sprache um ein Vielfaches auszahlen.