Verwendung von Metadaten im Dokumentenmanagement

1. Begriffsdefinition und Abgrenzung
1. Dokument
  1. Dokument als Nachweis einer Tatsache
  2. Dokument als Träger von Informationen
  3. Dokumente in Mediumform
    1. Papier (handschriftlich o. Druck)
    2. elektronische Dokumente
      1. Art ihres logischen Aufbaus - Grundformen:
      2. NCI-Dokumente (non coded - keine kodierten Informationen - z.B. ein Bild
      3. CI - Dokumente (coded - durch ein Daten- verarbeitungssystem automatisch lesbar gemacht) - Änderungsdatum - Dateigrösse - Erstelldatum - Ersteller / Autor
1.1. Information Retrieval
1. Auffinden und Wiedergewinnen von Informationen
2. Salton - ein Pionier in diesem Bereich. Für ihn bedeutet IR: - Repräsentation - Speicherung - Organisation
3. Schwerpunkt von IR = Wiedergewinnen von Inform.
4. Anwender weiss oft nicht, was genau er sucht - Informations- bedürfnis nicht von vornherein spezifizierbar für den Anwender
5. Intelligentes Information Retrieval System: passt die Informationsbereitstellung dem Profil des Benutzers an
6. SUCHARTEN
  1. Freitextsuche
    1. bei hoher Änderungsrate
    2. wenn Dokumentenbestand klein ist
  2. Suche in einem Index
    1. für grosse Dokumtenbestände
    2. für semistatische Dokumtenbestände
7. SUCHABFRAGE
  1. natürliche-sprachliche Abfrage
  2. Suchbegriffe mit logischen (booleschen) Operatoren (Junktoren) miteinander verknüpfen
    1. UND / ODER / NICHT
2. Metadaten
1. 2.1. Formale Metadaten
  1. Metadaten sind formale Informationen eines Dokuments
  2. Metadaten sind gleichzeitig Attribute eines Dokumentes
2. 2.2. Inhaltsbeschreibende Metadaten
  1. wenn Inhalt durch Metadaten beschrieben wird, dann sind dies inhaltsbeschreibende Metadaten
  2. Es wird zwischen SCHLAGWÖRTER und STICHWORTEN unterschieden
    1. Stichworte: Wörter, die im Dokument selbst vorhanden sind
    2. Schalgwörter: Wörter, die einem Dokument zugewiesen werden
    3. Vorteile von Schlagwörtern gegenüber Stichworten: - ermöglichen den Ausgleich einer von allgemeinen Sprachgebrauch abweichenden Terminologie eines Dokuments - erlauben den Ausweis von im Dokument nicht direkt genannten oder umschriebenen Gegebenheiten - führen zu einer Vereinheitlichung der Terminologie überhaupt
3. Klassifikation (Notationen) / Thesaurus / Indexierung
1. Indexierung = Indizierung
  1. Dokumente werden während der Dokumentenanalyse indexiert, d.h. mit Attributen versehen
  2. Dokumentenanalyse = schwierigste Problemstellung
  3. Dokumentenanalyse soll von Spezialisten durchgeführt werden, da sehr zeitaufwendig
  4. inahltsbezogene Deskriptoren für die miteinander in Beziehung stehende Ziele: - Suche nach Dokumenten, die für die Suchanfrage eines Nutzers relevant sind - Verknüpfung der Dokumente, die thematisch zusammengehören - Relevanzbestimmung der einzelnen Dokumente, bezogen auf eine Suchanfrage, auf Basis inhaltlich und vom Bedeutungsbereich her wohldefinierter Begriffe
  5. Index besteht aus zwei Teilen: - formaler Teil (Dokumenttitel, Autor, Erstelldatum) - inhaltsbeschreibender Teil, der sich auf den Original- text des Dokuments bezieht
  6. Qualität des Indexes hängt von den gewählten Stich- und Schlagwörtern
    1. tiefes (spezifisches) Indexieren
      1. Verwendung fachspezifischer Deskriptoren
    2. breites (erschöpfendes) Indexieren
      1. Indexieren mit wenig allgemeinen Begriffen
      2. Retrievalergebnis weniger gut -> dafür schneller und somit kostengünstiger
  7. Indexierung kann auch von einem Computerprogramm automatisch vorgenommen werden (autom. Idexierungsverfahren)
2. Klassifikation / Klassifikationssysteme
  1. Taxo = taxis (gr.) = Ordnung nomie = nomos (gr.) = Gesetz
  2. Hilfsmittel zur Ordnung von Gegenständen (DIN: 32705)
    1. - technisch-praktische Aufgabe - wissenschaftliche Aufgabe - erkenntnisvermittelnde Aufgabe
  3. sprachwissenschaftliche Klassifikation aller Gegenstände und Ereignisse in Gruppen beziehungsweise in Kategorien
  4. Klassifikationssystem ordnet jedem Dokument einen eindeutigen Platz zu
  5. Einteilungskriterium ist entweder hierarchichischer oder analytisch-synthetischer Natur
  6. die meisten Klassifikationssysteme sind hierarchischer Natur
    1. LCC - Library of Congress Classification
      1. Ende 19. Anfang 20. Jhr. entwickelt um die Bücheraufstellung der Library Congress zu organisieren
      2. System unterteilt die gesamte Kollektion von Büchern in 21 Klassen
      3. jede Klasse ist mit einem Buchstaben identifiziert
      4. jede Subklasse hat die Eigenschaften der in der Hierarchie höher stehende Klasse
      5. Übergewicht bei den Sozial- und Geisteswissenschaften
    2. DDC - Dewey Decimal Classification
      1. eine der grössten Universalklassifikationen
      2. ältestes Klassifikationssystem
      3. einfacher Aufbau -> nicht für Zwecke der Inhaltsbeschreibung konzipiert
      4. Hilfsmittel für Kataloge sowie als Systematik für Aufstellordnung von Büchern in Bibliotheken
    3. UDC - Universal Decimal Classification
      1. Klassifikation des Wissensbereichs über mehrere Stufen
      2. bildet eine hierarchische Gliederung des gesamten menschlichen Wissens
      3. nummerisches Nottationssystem ähnlich dem DDC
      4. 10 Hauptklassen (nummerisch)
      5. Einsatz in den letzten Jahren stark zurückgegangen
  7. Subklassen erben Eigenschaften von höherliegenden Superklassen
    1. Phänomen wird als Spezialisierung genannt
    2. Gegenteil von Spezialisierung ist Generalisierung
  8. analytisch-synthetische Klassifikation = Facettenklassifikation
  9. Facettenklassifikation = analytisch-synthetisches Klassifikationssystem
    1. jedes Dokument wird unter mehreren Gesichtspunkten betrachtet (analysiert)
    2. ausschliessende und vollständige Aspekte, Eigenschaften oder Merkmale einer Klasse oder ein bestimmtes Thema
    3. Klassifikationscode eines Dokuments wird durch Synthese der Teilnotationen (Notation der Facetten) gewonnen.
    4. bekannteste Facettenklassifikation = Colon Classification (stammt vom indischen Mathematiker Ranganathan ab)
    5. hat keinen breiten Einsatz in Bibliotheksbereich gefunden
3. Thesaurus
  1. bedient sich eines kontrollierten Vokabulars, welcher sämtliche gültige Schlagworte beinhaltet
  2. Unterschied zur gewöhnlichen Schlagwortliste: neben Thesaurustermen bestehen vielfältige bedeutungsmässige Beziehungen (Relationen) sowie durch die Terme repräsentierten Begriffe
  3. Thesaurus besteht aus zwei Komponenten: Deskriptoren des Thesaurus und Relationen sowie die Darstellung der Relationen)
    1. Deskriptoren müssen Informationsgehalt eines Dokumentes präzise beschreiben können
    2. Mehrdeutigkeit bei Deskriptoren müssen unbedingt vermieden werden (dies Bedarf einer genauen Definition der Deskriptoren)
    3. Synonyme dürfen im Thesaurus vorkommen, jedoch nicht als Deskriptoren (Nicht-Deskriptoren, welche auf den Deskriptor verweisen)
    4. Nicht-Deskriptoren dürfen nicht für die Indexierung verwendet werden, sondern nur als Zugriffshilfe zu den Deskriptoren dienen.
  4. Die Relationen der Deskriptoren können wie folgt eingeteilt werden
    1. Hierarchierelation
      1. semantische Beziehung zwischen vorhandenen Deskriptoren auf unterschiedlichen Spezifikationen in derselben Hierarchie eines Konzepts
      2. Ein Begriff kann Oberbegriff als auch Unterbegriff eines anderen Begriffes sein
    2. Assoziationsrelation
      1. Beziehung (Relation) zwischen Begriffen, die weder hierarchisch noch äquivalent sind
      2. können in der gleichen Spezifikationsebene einer Hierarchie sein (z.B. Trinkwasser und Nahrung)
      3. werden nur sparsam eingesetzt
      4. Unterpunkt 4
    3. Äquivalenzrelation
      1. Relation der selben Stufe
      2. Eines der Synonyme wird als Vorzugsbenennung ausgewählt und erhält somit den Status eines Deskriptors.
OWL - Web Ontology Language
1. Ziel: Anwendungen zu ermöglichen und den Inhalt von Informationen zu verarbeiten, anstatt die Informationen dem Anwender nur zu präsentieren.
2. Bietet mehr Möglichkeiten, Inhalt und Bedeutung auszudrücken
3. Entwicklung OWL starkt vom RDF und RDFS beeinflusst
4. OWL bietet drei Untersprachen mit zunehmender Ausdruckstärke
  1. OWL Lite
    1. enthält die wichtigsten Sprachelemente und unterstützt primär die Benutzer, die einfach zu implementierende Sprachfragmente benötigen
    2. in der Praxis nur von eingeschränkter Bedeutung
  2. OWL DL (description logic)
    1. für Benutzer, die das Maximum an Audrucksstärke haben möchten, dabei aber auf vollständige Verarbeitkeit und Entscheidbarkeit nicht verzichten wollen
    2. bedeutendste Untersprache in der Praxis
  3. OWL Full
    1. für Benutzer die maximale Ausdruckstärke bei maximaler syntaktischer Freiheit von RDF erwarten, allerdings ohne Garantie der Verarbeitkeit
    2. kann als Erweiterung von RDF angesehen werden
    3. jedes OWL-Dokumente ist auch ein RDF-Dokument (und umgekehrt)
5. OWL Einsatz in DM-Systemen ist nicht vorgegeben, da im OWL jedes Objekt mit jedem in Verbindung steht und dies in einem DMS nicht gewünscht wird (zumindest Verbindungen, welche nicht logisch sind)