-
1. Begriffsdefinition und Abgrenzung
-
Dokument
- Dokument als Nachweis einer Tatsache
- Dokument als Träger von Informationen
-
Dokumente in Mediumform
- Papier (handschriftlich o. Druck)
-
elektronische Dokumente
- Art ihres logischen Aufbaus - Grundformen:
- NCI-Dokumente (non coded - keine
kodierten Informationen
- z.B. ein Bild
- CI - Dokumente (coded - durch ein Daten-
verarbeitungssystem automatisch lesbar gemacht)
- Änderungsdatum
- Dateigrösse
- Erstelldatum
- Ersteller / Autor
-
1.1. Information Retrieval
- Auffinden und Wiedergewinnen
von Informationen
- Salton - ein Pionier in diesem
Bereich. Für ihn bedeutet IR:
- Repräsentation
- Speicherung
- Organisation
- Schwerpunkt von IR =
Wiedergewinnen von Inform.
- Anwender weiss oft nicht, was
genau er sucht - Informations-
bedürfnis nicht von vornherein
spezifizierbar für den Anwender
- Intelligentes Information
Retrieval System:
passt die Informationsbereitstellung
dem Profil des Benutzers an
-
SUCHARTEN
-
Freitextsuche
- bei hoher Änderungsrate
- wenn Dokumentenbestand klein ist
-
Suche in einem Index
- für grosse Dokumtenbestände
- für semistatische Dokumtenbestände
-
SUCHABFRAGE
- natürliche-sprachliche Abfrage
-
Suchbegriffe mit logischen (booleschen)
Operatoren (Junktoren) miteinander verknüpfen
- UND / ODER / NICHT
-
2. Metadaten
-
2.1. Formale Metadaten
- Metadaten sind formale
Informationen eines Dokuments
- Metadaten sind gleichzeitig Attribute
eines Dokumentes
-
2.2. Inhaltsbeschreibende Metadaten
- wenn Inhalt durch Metadaten beschrieben wird,
dann sind dies inhaltsbeschreibende Metadaten
-
Es wird zwischen SCHLAGWÖRTER und
STICHWORTEN unterschieden
- Stichworte: Wörter, die im Dokument selbst
vorhanden sind
- Schalgwörter: Wörter, die einem Dokument
zugewiesen werden
- Vorteile von Schlagwörtern gegenüber Stichworten:
- ermöglichen den Ausgleich einer von allgemeinen
Sprachgebrauch abweichenden Terminologie eines
Dokuments
- erlauben den Ausweis von im Dokument nicht direkt
genannten oder umschriebenen Gegebenheiten
- führen zu einer Vereinheitlichung der Terminologie
überhaupt
-
3. Klassifikation (Notationen) / Thesaurus / Indexierung
-
Indexierung = Indizierung
- Dokumente werden während der
Dokumentenanalyse indexiert, d.h.
mit Attributen versehen
- Dokumentenanalyse = schwierigste
Problemstellung
- Dokumentenanalyse soll von Spezialisten
durchgeführt werden, da sehr zeitaufwendig
- inahltsbezogene Deskriptoren für die
miteinander in Beziehung stehende Ziele:
- Suche nach Dokumenten, die für die Suchanfrage
eines Nutzers relevant sind
- Verknüpfung der Dokumente, die thematisch
zusammengehören
- Relevanzbestimmung der einzelnen Dokumente,
bezogen auf eine Suchanfrage, auf Basis inhaltlich
und vom Bedeutungsbereich her wohldefinierter
Begriffe
- Index besteht aus zwei Teilen:
- formaler Teil (Dokumenttitel, Autor, Erstelldatum)
- inhaltsbeschreibender Teil, der sich auf den Original-
text des Dokuments bezieht
-
Qualität des Indexes hängt von den gewählten
Stich- und Schlagwörtern
-
tiefes (spezifisches) Indexieren
- Verwendung fachspezifischer Deskriptoren
-
breites (erschöpfendes) Indexieren
- Indexieren mit wenig allgemeinen Begriffen
- Retrievalergebnis weniger gut -> dafür schneller
und somit kostengünstiger
- Indexierung kann auch von einem Computerprogramm
automatisch vorgenommen werden (autom. Idexierungsverfahren)
-
Klassifikation / Klassifikationssysteme
- Taxo = taxis (gr.) = Ordnung
nomie = nomos (gr.) = Gesetz
-
Hilfsmittel zur Ordnung von Gegenständen
(DIN: 32705)
- - technisch-praktische Aufgabe
- wissenschaftliche Aufgabe
- erkenntnisvermittelnde Aufgabe
- sprachwissenschaftliche Klassifikation aller Gegenstände
und Ereignisse in Gruppen beziehungsweise in Kategorien
- Klassifikationssystem ordnet jedem Dokument einen
eindeutigen Platz zu
- Einteilungskriterium ist entweder hierarchichischer
oder analytisch-synthetischer Natur
-
die meisten Klassifikationssysteme
sind hierarchischer Natur
-
LCC - Library of Congress Classification
- Ende 19. Anfang 20. Jhr. entwickelt um die
Bücheraufstellung der Library Congress zu
organisieren
- System unterteilt die gesamte Kollektion
von Büchern in 21 Klassen
- jede Klasse ist mit einem Buchstaben identifiziert
- jede Subklasse hat die Eigenschaften der
in der Hierarchie höher stehende Klasse
- Übergewicht bei den Sozial- und Geisteswissenschaften
-
DDC - Dewey Decimal Classification
- eine der grössten Universalklassifikationen
- ältestes Klassifikationssystem
- einfacher Aufbau -> nicht für Zwecke
der Inhaltsbeschreibung konzipiert
- Hilfsmittel für Kataloge sowie als
Systematik für Aufstellordnung von
Büchern in Bibliotheken
-
UDC - Universal Decimal Classification
- Klassifikation des Wissensbereichs
über mehrere Stufen
- bildet eine hierarchische Gliederung des
gesamten menschlichen Wissens
- nummerisches Nottationssystem ähnlich dem DDC
- 10 Hauptklassen (nummerisch)
- Einsatz in den letzten Jahren stark zurückgegangen
-
Subklassen erben Eigenschaften von
höherliegenden Superklassen
- Phänomen wird als Spezialisierung genannt
- Gegenteil von Spezialisierung ist Generalisierung
- analytisch-synthetische Klassifikation = Facettenklassifikation
-
Facettenklassifikation = analytisch-synthetisches Klassifikationssystem
- jedes Dokument wird unter mehreren
Gesichtspunkten betrachtet (analysiert)
- ausschliessende und vollständige Aspekte,
Eigenschaften oder Merkmale einer Klasse
oder ein bestimmtes Thema
- Klassifikationscode eines Dokuments wird durch
Synthese der Teilnotationen (Notation der Facetten)
gewonnen.
- bekannteste Facettenklassifikation = Colon Classification
(stammt vom indischen Mathematiker Ranganathan ab)
- hat keinen breiten Einsatz in Bibliotheksbereich gefunden
-
Thesaurus
- bedient sich eines kontrollierten Vokabulars,
welcher sämtliche gültige Schlagworte beinhaltet
- Unterschied zur gewöhnlichen Schlagwortliste:
neben Thesaurustermen bestehen vielfältige bedeutungsmässige
Beziehungen (Relationen) sowie durch die Terme repräsentierten
Begriffe
-
Thesaurus besteht aus zwei Komponenten:
Deskriptoren des Thesaurus und Relationen
sowie die Darstellung der Relationen)
- Deskriptoren müssen Informationsgehalt eines
Dokumentes präzise beschreiben können
- Mehrdeutigkeit bei Deskriptoren müssen
unbedingt vermieden werden (dies Bedarf
einer genauen Definition der Deskriptoren)
- Synonyme dürfen im Thesaurus vorkommen,
jedoch nicht als Deskriptoren (Nicht-Deskriptoren, welche
auf den Deskriptor verweisen)
- Nicht-Deskriptoren dürfen nicht für die Indexierung
verwendet werden, sondern nur als Zugriffshilfe zu
den Deskriptoren dienen.
-
Die Relationen der Deskriptoren können
wie folgt eingeteilt werden
-
Hierarchierelation
- semantische Beziehung zwischen vorhandenen
Deskriptoren auf unterschiedlichen Spezifikationen
in derselben Hierarchie eines Konzepts
- Ein Begriff kann Oberbegriff als auch Unterbegriff
eines anderen Begriffes sein
-
Assoziationsrelation
- Beziehung (Relation) zwischen Begriffen,
die weder hierarchisch noch äquivalent sind
- können in der gleichen Spezifikationsebene
einer Hierarchie sein (z.B. Trinkwasser und Nahrung)
- werden nur sparsam eingesetzt
- Unterpunkt 4
-
Äquivalenzrelation
- Relation der selben Stufe
- Eines der Synonyme wird als
Vorzugsbenennung ausgewählt
und erhält somit den Status eines
Deskriptors.
-
OWL - Web Ontology Language
- Ziel: Anwendungen zu ermöglichen und den
Inhalt von Informationen zu verarbeiten, anstatt
die Informationen dem Anwender nur zu präsentieren.
- Bietet mehr Möglichkeiten, Inhalt und Bedeutung auszudrücken
- Entwicklung OWL starkt vom RDF und RDFS beeinflusst
-
OWL bietet drei Untersprachen mit
zunehmender Ausdruckstärke
-
OWL Lite
- enthält die wichtigsten Sprachelemente
und unterstützt primär die Benutzer, die
einfach zu implementierende Sprachfragmente
benötigen
- in der Praxis nur von eingeschränkter Bedeutung
-
OWL DL (description logic)
- für Benutzer, die das Maximum an Audrucksstärke haben
möchten, dabei aber auf vollständige Verarbeitkeit und
Entscheidbarkeit nicht verzichten wollen
- bedeutendste Untersprache in der Praxis
-
OWL Full
- für Benutzer die maximale Ausdruckstärke bei maximaler
syntaktischer Freiheit von RDF erwarten, allerdings ohne
Garantie der Verarbeitkeit
- kann als Erweiterung von RDF angesehen werden
- jedes OWL-Dokumente ist auch ein RDF-Dokument (und umgekehrt)
- OWL Einsatz in DM-Systemen ist nicht vorgegeben,
da im OWL jedes Objekt mit jedem in Verbindung steht
und dies in einem DMS nicht gewünscht wird (zumindest
Verbindungen, welche nicht logisch sind)