[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Bielefeld Academic Search Engine
- Date: Thu, 24 Jun 2004 18:24:34 +0200 (CEST)
- From: Lars Aronsson <lars@xxxxxxxxxxx>
- Subject: Re: Bielefeld Academic Search Engine
Urte Kramer und Norbert Lossau schrieb:
> BASE (Bielefeld Academic Search Engine) Demonstrator jetzt öffentlich
> [...]
> Beim Aufbau der wissenschaftlichen Suchindexe sollen insbesondere
> auch die Inhalte berücksichtigt werden, die von Web-Crawlern
> nicht automatisiert erfasst werden können, also das sog. deep
> oder invisible Web (z.B. digitalisierte Sammlungen,
> Hochschulschriftenserver, eLearning Sammlungen etc.).
Schon vor fünf Jahren machte Norbert Lossau, damals bei der SUB
Göttingen, eine grosszügige Arbeit mit dem Aufbau des Göttinger
Digitalisierungszentrums und der Digitalisierung u.a. von mehreren
älteren mathematischen Zeitschriften. Jetzt in Bielefeld stellt er
eine Suchmaschine vor, die an den Inhalten diesen Zeitschriften
zugreiffen kann. Das wird hier oben "deep web" genannt, denn Google
und andere gewöhnliche Websuchmaschinen können an diesen Inhalten
nicht zugreiffen.
Aber warum kann Google das nicht?
In März 1999 besuchte ich zum ersten und bisher einzigsten Mal die
CeBIT Messe in Hannover und habe dann auch GDZ besucht (genau so wie
ich im Herbst 2003 einige interessante Leute in Prag, München, Ulm,
Halle und Berlin besuchte -- Hallo!). Ich stellte dann und dort ein
Preprint von meinem Aufsatz "Project Runeberg's Electronic Facsimile
Editions of Nordic Literature" vor,
http://runeberg.org/admin/19990511.html
In diesem Aufsatz erkläre ich, wie digitalisierte Literatur so im Web
bereitgestellt werden kann, dass auch gewöhnliche Websuchmaschinen
daran zugreiffen können:
"From a human interface perspective, interactively served
world-wide web documents have an optimal size of 2-200 kilobytes.
This corresponds to a single facsimile image. As a consequence of
not using HTML frames, Project Runeberg produces an HTML file as a
wrapper around each scanned page image. This file contains Project
Runeberg's standard page header and footer, which provide metadata
as well as pointers to the previous and next page in the sequence
defined by Pages.lst. The converted GIF is an inline image in this
document. Below the scanned image, the raw OCR text is included
inside a pair of <pre> </pre> tags. These HTML files are produced
in the web file tree only, and are never seen in the source file
tree.
External fulltext search engines such as AltaVista and Infoseek
will find and index the raw OCR text. When a user gets a search
hit on this page, she will first see the inline facsimile image of
the book page. Only if she scrolls down, will she see the raw
text."
Ein "deep web" von digitalisierter Literatur gibt es eigentlich nur
durch den Irrtum diesen einfachen Rat nicht zu folgen.
Wer z.B. "luftähnliches Fluidum" bei Google nachsucht, kann dies in
Funktion selbst sehen,
http://www.google.com/search?q=luft%C3%A4hnliches+Fluidum
--
Lars Aronsson (lars@xxxxxxxxxxx)
Projekt Runeberg - freie nordische Literatur - http://runeberg.org/
Listeninformationen unter http://www.inetbib.de.