Das Dateisystem als Tagging-System

Das Dateisystem als Tagging-System

Unsere Kernfrage lautet: Mit welchem Ablagesystem können wir unsere Inhalte schnell und systematisch in einem Dateisystem so ablegen, dass wir sie systematisch und schnell wieder finden können? Wir skizzieren hier ein schlagwortbasiertes Ablagesystem.

Grundsätzlich sind wir an einem leichtgewichtigen, einfachen System interessiert. Prinzipien:

  • Keep it simple stupid (KISS) http://en.wikipedia.org/wiki/KISS_principle
  • rely on common technology
    • low tec, nur Dateiformate mit sehr langer Haltbarkeit!
    • Volltext-Indizierung ermöglichen
    • beachte Datensicherung und -Recovery
    • erlaube Copy and Paste

Außerdem sollte das Ablagesystem im Prinzip von einer bestimmten Technologie (und insbesondere von einer bestimmten Software) unabhängig sein. Denn fast immer müssen oder wollen wir so verschiedene Kanäle bedienen wie Text- und Inhaltserstellung (z.B. doc, excel, plaintext oder mindmap ), Dateiablage im Dateisystem, email ( Mozilla Thunderbird mit Lightning oder outlook ) oder spezifische personal information management (PIM) Werkzeuge .

Wir beziehen uns im folgenden auf die Organisation einer hierarchischen Dateiablage, wie sie von gängigen Betriebssystemen wie Windows, Linux oder Mac angeboten wird. Der Ansatz ist jedoch übertragbar auf Email, Wiki bis hin zu professionellen Content Management Systemen.

Ausführlicher zum Thema Dateiorganisation:

Ordnung im Dateisystem durch Tagging mit einer Terminologie

Wir unterscheiden Daten und Metadaten.

  • Daten sind der Inhalt einer email, einer Datei, eines Archivs etc.
  • Metadaten sind insbesondere eine unsortierte Menge von Schlagworten, "Tags" oder Daten

Vom Betriebssystem vergebenen Metadaten (wie z.B. letzer Zugriff, Erstellungsdatum oder Größe ) interessieren uns im Folgenden nicht: Erstens werden sie z.T. automatisch geändert, wir haben sie also nicht voll im Griff. Zweitens handelt es sich hierbei um Metadaten, die sich auf die Datei selbst anstatt ihre Inhalte beziehen; sie sind also nur sekundär spezifisch in Bezug auf die eigentlichen Daten, die wir beschreiben wollen.

Auch das indirekte Tagging z.B. mit einer Datenbank wollen wir zunächst nicht weiter verfolgen, da es technisch und in der Handhabung komplex ist.

Grundlage: eindeutige Datei-ID

Zunächst müssen wir unsere Daten eindeutig mit einer Datei-ID versehen.

Ein Teil eines Dateinamens sollte eine eindeutige Identifizierung des Inhalts ermöglichen. Eine leicht zu rekonstruierende Datei-ID kann man selbst generieren, z.B. als Kombination aus einem (z.B. Kunden-) Namen plus einem Datum- oder/und Zeitstempel, z.B. "MeierHolzbau 2011-01-15-T1013".

Die Inhalte einer Datei lassen sich nun durch zusätzliche Tags weiter beschreiben.

Mit Tags beschriften kann man eine Datei grundsätzlich an drei verschiedenen Stellen:

  • direkt und explizit im Dateinamen z.B.
    • MeierHolzbau_Angebot_2011-01-15.doc
    • Mueller_Abnahme_Protokoll_v0.9_2009-03-12.pdf
  • direkt und implizit durch den Speicherort, insbes. einen Ordner-Pfad, z.B.
    • Projekt/MeierHolzbau/Angebot/2011-01-15T1013.doc
    • Archiv/Projekt/Mueller/Protokoll/Abnahme_v0.9_2009_03-12.pdf
  • indirekt in einer anderen Datei, einer Datenbank etc.

Schlagworte, Tags

  • jedes SW steht für sich
  • falls SchlagwortKetten erforderlich sind, werden sie (wie hier) in der sog. CamelCaseSchreibweise notiert
  • man muss alle SW immer im Kopf behalten können: mehr als einige Handvoll sind das nicht!

Dateinamen

Die Tags für eine Datei - die über ihre Datei-ID alleine schon eindeutig identifizierbar ist (!) - ergeben sich nun (a) aus den expliziten Tags im Dateinamen selbst, sowie (b) den impliziten Tags, die durch den Pfad zum Ablageort repräsentiert werden.

Konkret bauen wir einen Dateinamen zusammen aus der Datei-ID (die als Bestandteil ggf. bereits das Datum enthält) plus:

  • ungeordnete Schlagwortliste
  • autor-Kürzel
  • Version
  • Datum im ISO-Format jjjj-mm-tt
  • extension

Um für nachfolgende Indizierprozesse die Wortgrenzen eindeutig unterscheiden zu können, werden diese Bestandteile des Dateinamens mittels Leerzeichen oder Unterstrich "_" zusammengefügt.

Der Unterstrich ersetzt auch Zeichen, die in einem gültigen Dateinamen nicht vorkommen dürfen.

Beispiele:

  • PIM ordnerstruckturen _bericht_müller_v1.3_jobu_2011-02-13.doc
  • William Jones_Personal Information Management
  • https___dlib.lib.washington.edu_dspace_bitstream_handle_1773_2155_arist+chapter,current.pdf

Pfade

Auf der Festplatte / im Dateisystem interpretieren wir einen Ordner-Pfad als eine Menge von Schlagworten. Ordnernamen sind entweder Schlagworte oder Namen von Kunden, Projekten etc.

Wie in der Mathematik üblich spielt die Sortierung in einer Menge keine Rolle, und es gibt keine doppelten Exemplare.

Auch wollen wir der Hierarchie in unserer Ordnerstruktur keine Bedeutung beimessen. Eine Order-Hierarchie repräsentiert kein Wissen (insbes. keine Schlagwort-Hierarchie), sondern dient ausschließlich der Zugriffs-Optimierung.

So können wir die Ordnerstruktur nach praktischen Gesichtspunkten anlegen und umbauen, ohne dass sich damit unsere Schlagwortsystematik ändert.

Ordner-Reihenfolge top-down:

  • die informativsten Unterscheidungen (z.B. arbeit/privat) ganz nach oben, die unwichtigsten (z.B. doc/pdf) ganz nach unten
  • "informativ" ist relativ zum jeweiligen Business
  • sicherlich sehr informativ: automatisch hergestellt vs. per Hand eingetippt?
  • Aufgaben der Ordnerstruktur
    • finden (hier kann ein Volltextindex unterstützen)
    • ablegen - das muss man selbst machen!
    • selektive Datensicherung: ggf. will man für tägliche Datensicherung einiger Ordner ausschließen

Beispiel: Mehrfache unabhängige Verschlagwortung

z.B. Lehrer, Unterrichtsmaterial zum Thema "Rohstoffmangel"

  • Klassenstufe: _kl7, _kl8
  • Fach: _Erdkunde, _Deutsch, _Ethik
  • Thema
  • Jahrgang: _jg2009, _jg2010
  • _Lektüre, _Arbeitsblatt, _Klausur

TBD: Beispiel ausarbeiten, exemplarische Ordnerstrukturen diskutieren

Zusammenfassung:

  • Wir beschreiben Dateien durch eine ID plus eine kleine Menge von Schlagworten plus einen manuell angelegten Zeitstempel.
  • Die Reihenfolge der Schlagworte ist irrelevant; es besteht also kein Bedeutungsunterschied zwischen "kauf/vertrag" und "vertrag/kauf" (Ja, dies ist eine Einschränkung in dem, was wir ausdrücken könnten. Wir nehmen diese Einschränkung in kauf, um ein einfaches und handhabbares Ablagesystem zu erhalten.)
  • Zeitliche stabile Tags werden als Ergänzung der Datei-ID sinnvollerweise als Teil des Dateinamens angelegt. Wenn eine Datei verschoben oder per email verschickt wird, behält sie ihren Namen und so auch die zugehörigen Tags.
  • In einem Geschäftsgang veränderliche Tags werden sinnvollerweise durch einen Ablageort - im Dateisystem durch einen Pfad - repräsentiert. Wenn eine Datei verschoben wird, ändern sich auch diese Tags automatisch. Hier wird der Ablageort selbst zum Schlagwort, zum Metadatum.

Nutzung der Ordnung

Ein Dateisystem ist eine hierarchische Dateiablage.

    Eigenschaften beim Direktzugriff

    • prima geeignet für Daten, die sich eindeutig immer feineren kategorien zuordnen lassen
    • leidlich gut geeignet für Daten, die mehrfach klassifiziert werden können

    Suche

    • der Ansatz, einen Ordnerbaum als Tagging-System zu verwenden, erweitert die Möglichkeiten eines hierarchischen Dateisystems
    • Unterstützung kommt von einer Suchfunktion, die nicht nur Dateinamen analysiert, sondern in die Suche (und ggf. das Ranking der Suchergebnisse) auch Ordnernamen mit einbezieht.

    Was wir mindestens wollen: Eine Suche, die bei einer Eingabe einer Menge von Schlagworten alle Dateien zeigt, die mit diesen Schlagworten getaggt sind. Dies wird z.B. geleistet von den virtuellen Ordnern im email-System Thunderbird: http://www.thunderbird-mail.de/wiki/Virtuelle_Ordner_einrichten

    Was wir eigentlich wollen: Ein Datei-Browser, der zu jeder gewählten Kombination von Schlagworten jeweils anzeigt, welche anderen Schlagworte noch sinnvollerweise verwendet werden können - und diejenigen anderen Schlagworte gar nicht mehr zur Auswahl stellt, zu denen es keine Ergebnisse mehr gibt. Ein solches System im Vollausbau nennt man facettierte Suche. Sie ist Stand der Technik für High-End Onlineshops. Demo z.B.