[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] Bedeutung von XML (war bibliojobs ... VAB)
- Date: Sun, 02 Sep 2012 19:26:06 +0200
- From: h0228kdm <h0228kdm@xxxxxxxxxxxxxxxx>
- Subject: Re: [InetBib] Bedeutung von XML (war bibliojobs ... VAB)
Liebe Frau Payer,
ich wollte eigentlich mit dem was Herr Prante schrieb keinen neuen
Schauplatz eröffnen, aber er hat natürlich Recht, das XML nicht
ausreicht um ein semantisches Netz aufzuspannen. Das macht im Prinzip
erst eine entsprechendes Vokabular (semiotischer Thesaurus) mit seiner
Vernetzung (Oberbegriff, Synonym, Antonym, ...). Ein solcher
semiotischer Thesaurus ist zwar nicht „besser als natürliche Sprache“,
man kann ihn aber viel einfacher und definitiver machen. Man kann
definieren, was in dem vorliegenden System ein Creator, ein
Rechteinhaber etc. bezogen auf ein Werk ist, unabhängig von den
Unschärfen und zahlreichen anderen Aspekten der natürlichen Sprache
(Autor als Mensch, Kranker, Ehemann, Urlauber ...). Der Computer kann
damit seine Instruktionen gegenüber Autoren (Creator), Rechteinhabern
etc. ausführen. Er kann beispielsweise den Rechteinhaber informieren,
wenn jemand Publikationen von ihm unerlaubt zu kopieren versucht, sie
ausleihen oder kaufen möchte. Er kann auch den Autor beschimpfen, wenn
dieser plagiiert hat, sobald der Computer den selben Text von einem
anderen (früher publizierenden) Autoren ohne entsprechende Zitation
findet ... ;-)
Wir müssen zunächst unterscheiden, zwischen der Semiotik in natürlicher
Sprache, die viel schwieriger ist (weil unschärfer. Siehe dazu z.B. Cyc
von Douglas Lenat ) und der in abgeschlossen Systemen wie UMLS (von der
NLM). Insbesondere bei abgeschlossenen Systemen (also solchen mit festen
Vokabularien) übernimmt XML den zweiten unverzichtbaren Part der sog.
Semantik, den der Textauszeichnung. Damit wird z.B. <Publikationsdatum>
2000 </Publikationsdatum> für einen Computer ein klar erkennbares
Zeichen, dass er analysieren kann. Er kann sagen, wer juristisch gesehen
von wem abgeschrieben hat.
Insofern frage ich mich, ob es nicht sinnvoll wäre, RDA auch in seiner
semantischen Bedeutung zu sehen. Das bedeutet nicht, dass Frau
Wiesenmüller „ein Lehrbuch zu den Möglichkeiten des Semantic Web
schreiben“ muss, das tun wohl Semantic Web Spezialisten, aber um die
Rolle von RDA im Semantic Web, wird sich die Fachwelt wohl Gedanken
machen müssen. Das ist im Moment die größte Revolution im Internet –
nach der Informationsverarbeitung beschäftigt sich nun alles mit der
Bedeutungserkennung der Computer.
Dass die RDA ein Regelwerk sein will, das in jeglicher neuen
Datenbanktechnologie angewendet
werden kann.“ mag sein. Meine Erfahrung sagt mir aber, dass das nicht
sinnvoll ist. Dokumentarisch gesprochen braucht jedes Retrievalsystem
seine inhaltliche und formale Erschließung. Für Volltexte braucht man
eine Volltextdatenbank mit Kontextoperatoren, für XML-Datenbanken
braucht XML-Native Retrievalsysteme, etc. Man kann zwar auch einfache
XML-Dokumente in relationalen Datenbanken recherchieren, aber dann
verschenkt man große Teile des Potentials.
Mit freundlichen Grüßen
Walther Umstätter
Am 02.09.2012 17:24, schrieb Margarete Payer:
Lieber Herr Umstätter,
wenn Frau Wiesenmüller Ihrem Wunsch nachkäme, müsste sie ein Lehrbuch
zu
den Möglichkeiten des Semantic Web schreiben. Die RDA will ja ein
Regelwerk sein, das in jeglicher neuen Datenbanktechnologie
angewendet
werden kann.
Einen Hinweis, dass das heutige MARC-Format die RDA nicht voll
abbilden
kann, wird sich wohl nicht umgehen lassen.
Schöne Grüße
Margarete Payer
Liebe Frau Wiesenmüller,
es gibt verschiedene Gründe sich hier nicht mehr äußern zu wollen
(bzw.
können)
und so respektiere ich die ihren.
Für das RDA-Lehrbuch kann man ja nur viel Erfolg wünschen!
Da wir im Prinzip schon bei dem Thema waren, würde ich, wie Sie sich
denken können, RDA nicht ohne Blick auf XML behandeln.
Daher hier nur die Anregung:
http://tsig.wikispaces.com/file/view/Future+of+cataloguing+for+wiki.ppt
“Future of Cataloguing: how RDA positions us for the future”
“RDA = content standard can be used with web-friendly encoding
schema,
based on XML."
bzw.
http://unllib.unl.edu/LPP/PNLA%20Quarterly/moehrle76-4.pdf
“Sally McCallum of the Library of Congress defined 9 format
characteristics of MARC in her lecture titled "MARC Forward": "XML;
Granularity; Versatility; Extensibility; Hierarchy support;
Crosswalks;
Tools; Cooperative management; Pervasive" (2007, p. 3). It's clear
any
replacement for MARC 21 will need these characteristics, and more.”
Dazu auch die Einschätzung der Bibliotheksberaterin Karen Coyle.
“There is sometimes the assumption that the future data carrier for
library data will be XML. I think this assumption may be misleading
and
I'm going to attempt to clarify how XML may fit into the library
data
future.”
http://kcoyle.blogspot.de/2011/09/xml-and-library-data-future.html
bzw. "RDA in XML - why not give it a shot?"
http://kcoyle.blogspot.de/2011/07/rda-in-xml-why-not-give-it-shot.html
Es wird also bezüglich XML auf drei Probleme ankommen:
1. Mit welcher DTD kann man RDA am besten ausschöpfen (Verhältnis zu
JATS NISO Z39.96-2012
http://www.niso.org/apps/group_public/download.php/8975/z39.96-2012.pdf
)?
2. Wie leistungsfähig werden XML-Native-Datenbanken (oder auch
Google)
diese DTD recherchieren können,
wenn wir in diesem Bereich endlich die Ebene der relationalen
Datenbanken überwunden haben.
3. Wird es noch vor dieser XML-Nutzung eine Abzweigung der
Entwicklung
z.B zu Turtle (Terse RDF Triple Language) geben.
Dass es verschiedene Philosophien in der Wissensverarbeitung und den
Ontologien (für die ja die Semantik Voraussetzung ist) gibt, ist
bekannt.
Als dokumentarisch denkender Mensch, war mir das Konzept der
Dokumente
mit Frames und Slots immer näher als die Triple languages, da sich
mit
struktirierten Dokumenten ein Objekt beschreiben lässt (aus
archivarischen und historischen Gründen am besten in reiner ASCII
bzw.
UNICODE-Form, wie bei SGML), bei dem dann Interferenzmaschinen sich
in
einer Art Datamining das an Information herausfiltern können, was
sie
für ihre Entscheidungen brauchen. Also beispielsweise welche Rechte
ein
Fragesteller bei einem Dokument hat, was er sehen oder hören darf,
was
er dafür zahlen muss oder wie weit er es weiter verwenden darf, um
nur
ein Beispiel zu nennen.
"In etlichen Bibliotheken gibt es dazu Dateien, beispielsweise mit
Ampelanzeigen, die mit rot (ohne Bibliothekszugang), gelb (einige
Aufsätze zugänglich) und grün (Bibliothekszugang) den Zugang für
jeden
Benutzer signalisieren. Dahinter stehen Dateien, auch Knowledge
Bases
genannt, die jeweils prüfen, welche Zugriffsrechte das jeweilige
Terminal zur Zeit hat. Da diese Rechte immer wieder verändert sein
können und über unterschiedliche Kanäle erworben werden (so
verkaufen
große Verlage ihre Zugriffsrechte auf Publikationen gern im Paket),
sind
die Ampelangaben nicht immer korrekt, da die Benutzer über
verschiedene
Verträge der Bibliothek unterschiedliche Zugangsberechtigungen beim
Linkresolver SFX bekommen. Damit ist der Zugang bzw. die
Zugangsprozedur
von verschieden Terminals nicht immer identisch. Im Prinzip
vergleicht
SFX die Zugangsrechte bei einer URL mit den Lizenzrechten der
Bibliothek
und deren Benutzerkennungen." (Lehrb. Bibliotheksmanagement S. 81)
Schon
heute hat jede Bibliothek das Problem herauszufinden, welche Rechte
ihre
Benutzer welchen digitalen Dokumenten gegenüber haben. Dabei geht es
um
viel Geld.
Die Bevorzugung von Tripeln in Ontologien ist ähnlich der bei
relationalen Datenbanken. Sie sind einfacher und bekannter, aber
damit
nicht unbedingt besser als Frames und Slots. Das gilt insbesondere
für
den Bibliotheksbereich.
Frames und Slots hat die NLM schon beim Unified Medical Language
System
(UMLS) benutzt. (
http://pubmedcentralcanada.ca/pmcc/articles/PMC2245463/pdf/procascamc00016-0196.pdf
), obwohl damals H. Warner noch kein XML zur Verfügung stand.
Mit freundlichen Grüßen
Walther Umstätter
--
http://www.inetbib.de
Listeninformationen unter http://www.inetbib.de.