Semantisches Terminologiemanagement

Semantisches Terminologiemanagement

Klassisches Terminologiemanagement

verwenden einer konsistenten Terminologie in der Erstellungs-Phase eines Textes, dadurch Qualitätssicherung in der

  • Doku
  • Übersetzung
  • Kundendienst
  • Ersatzteil-Management

Nachschlagen: Suche in einem (meit aufwändig hergestellten) Index Bsp: Liste von Knoten und den zugehörigen detaillierten Beschreibungen z.B. http://de.wikipedia.org/wiki/Liste_von_Knoten#Die_sortierbare_Liste_der_Knoten

Suche

  • Was man tut: Erstellung eines ad hoc-Index
  • Herausforderung: Zuordnung von neuen und unbekannten Erscheinungsweisen zu alten und bekannten Begriffen Bsp.: falsch gemachter Trossenpalstek

Glossar-Arbeit: Erläutern der wichtigsten Fach-Begriffe für ein Laien-Publikum. Was man tut:

  • Zurückführen und Erläutern von Fachbegriffen auf/durch weniger exakte, anschauliche Begriffe und Beispiele
  • Vernetzen von Fachbegriffen durch Wiederverwendung im erläuternden Text Bsp.: Ein Bulin 1.5 entsteht aus einem innenliegenden Palstek, indem dessen loses Ende nocheinmal extra geklemmt - nämlich durch das kleine Auge parallel zum stehenden Ende nachgefahren - wird.

techn. Doku ist Zielgruppenbezogen

  • Entwicklung
  • Gebrauchsanleitungen
  • Schulung
  • Kommunikation im Web 2.0
  • wie hält man das auseinander?
    • verschiedene Terminologien parallel
    • eine Terminologie mit verschiedenen Sichten

Kostenersparnis wird erreicht durch

  • Wiederverwendung existierender Terminologien
  • gezieltes und schnelles Einweben eigener lokaler Terminologien in existierende Terminologien
  • für professionellen Einsatz eigetlich Pflicht Qualitätskontrolle der eigenen Terminologien

Was ist eine semantische Terminologie?

Eine Terminolgie ist eine Menge von Begriffen und Termen, die "irgendwie" oder ad hoc in Beziehung miteinander gebracht werden.

In einer semantischen Terminologie werden diese "irgendwie"-Beziehungen logisch formalisisert, d.h. in einer Logik-Sprache rekonstruiert und modelliert. Bestandteile einer logischen Modellierung sind z.B. Definitionen, Beziehungen und Verwendungsbedingungen von Begriffen.

In der Semantik wird grundsätzlich unterschieden zwischen Begriffen und Termen (Labels, Worten) : Ein Begriff ist eine abstrakte Idee, die problemlos mit einer abstrakten ID benannt (z.B. abok_1010) werden kann. Ein Label hingegen ist eine textuelle Erscheinungsform (wie z.B. "Palstek" oder "Bulin").

Auswirkung: In gängigen Terminologie-Management-Systemen wird - unter Mithilfe der Nutzer - typischerweise eine Tabelle verboten -> erlaubt (z.B. "Doppelknoten" -> "Kreuzknoten") aufgebaut.

In dem semantischen Thesaurusmodell SKOS würde zu diesem Zweck in einem ersten Schritt eine ID vergeben (z.B. abok_1402) und den zugehörigen Knoten in Aufbau und Verwendung genau definieren. In einem zweiten Schritt würden dann Benennungen für diesen Knoten definiert und klassifiziert, z.B.

Beispiel 1

  • knoten:abok_1402 skos:prefLabel "Kreuzknoten"
  • knoten:abok_1402 skos:altLabel "Reffknoten"
  • knoten:abok_1402 skos:deprecatedLabel "Doppelknoten"

Beispiel 2

  • knoten:abok_1405 skos:prefLabel "Altweiberknoten"
  • knoten:abok_1405 skos:altLabel "Doppelknoten"

Entsteht damit nicht ein unnötiger Überschuss an Bezeichnern und Etiketten? Das Gegenteil ist der Fall: Dort, wo ein Begriff oder Term wirklich eindeutig ist, kann bedenkenlos der Term mit seinem Begriff identifiziert werden. Und überall dort, wo Terme sprachlich weicher und unschärfer verwendet werden als eine technische Nomenklatur wünschenswert erscheinen lässt, lassen sich scharfe Begriffe und weicher verwendete Terme in einem - zudem noch klar standardisierten - Datenmodell aufeinander beziehen.

Also: Eine Terminologie wird zu einer semantischen Terminologie, wenn (a) Begriffe und Terme sauber unterschieden werden, und (b) die Beziehungen zwischen den Begriffen einer Terminologie formal vergleichsweise streng gefasst sind.

Mehrwerte semantischer Terminologien

beim Schreiben

  • stammen alle verwendeten Terme und Begriffe aus dem selben Anwendungsgebiet
    • hier: Nautik:Palstek - Bergsteigen:Bulin - Haushalt:N.N.
  • Zuordnung Term -> Begriff
    • idealerweise beim Erstellen eines Textes idealerweise mit starker Maschinenunterstützung
  • Recherchieren / Auffinden der korrekten allgemeinverständlichen Bezeichnung für einen Fachbegriff aus der Entwicklung
    • Welche Knoten eignen sich zum Verlängern eines Seils?

Der eigentliche Mehrwert: Zwei-Ebenen-Struktur aufbauen

  • für den Leser gut verstehbarer Text
  • Annotationen (typischerweise Attribute von html Elementen wie span, a etc.) modellieren die logische Struktur der im Text mitgeteilten Inhalte
  • Inhalte eines Textes werden damit für Informationsysteme (IS) lesbar.
  • Das ist besonders interessant für semantische Wissensverarbeitung.
  • XML: IS kann den Text und seine Struktur hoch standardisiert parsen
  • Semantik: IS kann die Inhalte eines Textes erkennen und auswerten.

Semantisches Terminologiemanagement mit Ontologien

ontologie: eine komplexere Datenstruktur als bisher

  • kann mehr
  • brauchen wir das, was damit mehr möglich ist?
  • Einsatz: Top level Segment, bei dem eine hohe Qualität der Doku erforderlich ist Korrektheit bzgl. Integritätsbedingungen aus der Entwicklung

Entwicklung entwickelt Knoten und Anwendungen

  • dokumentiert eigene Kennwerte
  • nimmt Bezug auf andere Kennwerte von Zulieferern
  • gültige Konfigurationen erstellt Integritätsbedingungen für Kombinationen von Messwerten oder Anwendungen "Kreuzknoten ist nicht geeignet für Anstecken Hängematte / Rettungsknoten: Palstek ist geeignet Klettern: Palstek muss gesichert werden, z.B. Bulin 1.5"

TR beschreibt Knoten und Anwendungen

  • kommuniziert mit den Entwicklern
  • fasst komplexe Sachverhalte der Entwickler in eine i.A. einfachere Sprache
  • erstellt Photos, Detailzeichungen, Explosionszeichnungen mit Teile-Benennungen
  • ist sprachlich und inhaltlich kreativ tätig!
  • macht formale Beziehungen explizit, die von den Entwicklern i.A. nur implizit kommuniziert werden

Wie kann das Ergebnis qualitätsgesichert werden?

  • Durch den Aufbau von zusätzlichen Strukturen, mit denen sich Dokumentationen korrekter erstellen, besser kontrollieren und besser vernetzen lassen.
  • Zwei Klassiker solcher Strukturen sind:
    • Index muss auch Treffer liefern für Suche nach Teile-ID, wenn im Text lediglich ein allgemeinerer Gattungs-Bezeichner genannt wird Bsp.: Im Text steht "Ansteck-Knoten", aber in der illustrierenden Grafik ist ein gesteckter Achtknoten zu sehen
    • Glossar Erläuterungen kommuniziert ein semantisches Netz

Kommt Semantik ins Spiel, lassen sich Strukturen wie Index und Glossar weiter verfeinern:

  • Thesaurus Vernetzung der in einem Glossar enthaltenen begrifflichen Verweise z.B. durch semantisch qualifizierte Querverweise. Bsp (semAuth-Syntax):
  • Klassifikation
    • Beschreibung (formal: Axiomatisierung) von Klassen durch Angabe hinreichender oder notwendiger charakteristischer Eigenschaften ihrer Elemente
    • Bsp.: Ein Festmach-Stek ist ein Knoten,der sich bei Wechselbelastung nicht aufarbeitet.

Wenn man solche terminologischen Strukturen einmal aufgebaut hat, schaffen sie zusätzliche Mehrwerte

  • begriffliche Erweiterung oder Normalisierung von Suche und Indizierung
  • Reduktion des Suchraumes zur Beschleunigung und Verbesserung statistischer Klassifikationsverfahren
  • Visualisierung der Zusammenhänge der Begriffe
    • als Schaubild mit anklickbaren Links
    • als Grundlage der Navigation der Online-Darstellung
      • links: Dokument-Struktur: diese ist - unseres Erachtens zurecht - meist baumartig strukturiert
      • unten: logische Beziehungen zu Nachbar-Begriffen

Wenn diese Terminologien semantisch aufgebaut werden ... Mehrwerte:

  • Verzahnung und Abgleich der eigenen Terminologie - insbesondere unternehmensspezifischer Besonderheiten - mit anderen Terminologien
    • öffentlich verfügbare, z.B.
      • GeoNames
      • SWT
    • kommerzielle Fachthesauri, z.B.
      • TEMA
    • Terminologien von b2b-Partnern, Zulieferern, Händlern, Internet-Portalen
  • Konsistenz-Prüfung
    • für neu einzufügende Begriffe
    • der gesamten eigenen Terminologie
    • der Verzahnung von eigener Terminologie mit Fremd-Terminologien
  • nahtlose Integration in das Netz der Linked Open Data
  • elektronisch zugängliche Publikation von Produkt-Kennzahlen auf html-Seiten mit RDFa