[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Pica2XML, ein neues Konvertierungsprogramm des GDZ in Goettingen



Pica2XML, ein neues Konvertierungsprogramm des Goettinger
DigitalisierungsZentrums (GDZ) der SUB Goettingen zur Umwandlung
bibliographischer Pica/GBV-Daten in RDF/XML 

(http://www.sub.uni-goettingen.de/gdz/gdz-tools/pica2xml/pica2xml_ind
e x_de.html)
++++++++++++++++++++++

Hintergrund

Im Rahmen der Digitalisierung von Printmaterialien werden Metadaten in
unterschiedlichen Bereichen erstellt: bibliographische Informationen
zu Autor, Titel, Verlag etc., strukturelle Beschreibungen eines Werks
(Vorwort, Kapitelgliederung, Abbildungen etc.) und technische Details
aus dem Digitalisierungsprozess (Scan-Parameter wie Aufloesung,
Farbtiefe, Komprimierung, Dateiformat). Alle diese Metadaten werden im
GDZ in ein offenes Standardformat zur Beschreibung von elektronischen
Dokumenten im WWW ueberfuehrt, in RDF / XML (Ressource Description
Framework / eXtensible Markup Language). Daten in diesem Format koennen
nicht nur fuer Internet-Suchmaschinen bereitgestellt werden, sie dienen
im Goettinger DigitalisierungsZentrum auch als Import- und
Export-Format fuer das Dokumenten Management System (DMS) AGORA. Dieses
ist fuer die SUB Goettingen das Middleware-Programm, ueber das die
digitalisierten Dokumente im Internet bereitgestellt werden. 

Ziel jeder dieser Beschreibungen muss es sein, sie moeglichst mit
automatisierten Verfahren zu generieren, um die Produktionskosten
gering zu halten. Die Nutzung bereits vorhandener Daten ist dabei ein
wichtiger Ansatz. Der Pica/GBV-Verbundkatalog enthaelt nach der
Katalogisierung durch die SUB Goettingen entsprechende
Titelbeschreibungen fuer digitalisierte Dokumente (DigDoks). Diese
Beschreibungen dienen als Ausgangsformat fuer die Generierung des
RDF/XML-Formats.

Das Programm

Das GDZ hat ein Tool entwickelt, das die Generierung einer XML-Datei
mit den bibliographischen Daten zu einem DigDok ermoeglicht.
Ausgangspunkt ist ein Download-Set im PICA 3-Format. Die
Download-Daten muessen das korrekte PICA/GBV-Format haben, koennen aber
unterschiedliche Zeichensaetze beinhalten (abhaengig von der gewaehlten
Option beim Download). Eine Datei enthaelt die Informationen fuer genau
ein digitales Dokument (der Output ist genau eine RDF/XML-Datei). Beim
Konvertierungsvorgang arbeitet das Programm standardmaessig mit Unicode,
so dass ggf. Mapping-Tabellen erforderlich werden. Das Programm erlaubt
den Import solcher Tabellen nach Bedarf. Die im GDZ verwendeten
Tabellen sind in dem Tool als Optionen integriert, andere koennen auf
einfache Weise integriert werden. Die gleiche Vorgehensweise gilt fuer
die generierte Datei. UTF8 wird standardmaessig unterstuetzt, ASCII mit
oder ohne Tabellen kann aber ebenfalls verwendet werden. Zu beachten
ist, dass der Gebrauch von Tabellen fuer die generierte Datei
moeglicherweise eine XML-Datei erzeugt, die nicht valide ist.

Kommentare und Anregungen sind erwuenscht!

Mit freundlichem Gruss
Norbert Lossau
************
Dr. Norbert Lossau
Niedersaechsische Staats- und Universit?tsbibliothek Goettingen
	Leiter G?ttinger DigitalisierungsZentrum GDZ 
	Fachreferent Finnougristik, Finnland, Ungarn
Platz der Goettinger Sieben 1
37073 Goettingen
Tel.: +49 +551/39-5217  Fax. +49 +551/39-5222
WWW: http://www.sub.uni-goettingen.de/GDZ
http://www.gutenbergdigital.de
E-Mail: lossau _at__ mail.sub.uni-goettingen.de


Listeninformationen unter http://www.inetbib.de.