[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Ergänzung zu: Indexierung von PDF-Dateien in Suchmaschinenen



Liebe Liste,

PDF-Dateien speichern intern die Worte nicht im Klartext. D.h. nur mit
Filterprogrammen können die zu indexierenden Textdaten erkannt und der
maschinellen Erschließung zugeführt werden. Die meisten Texte enthalten auf
den ersten n Zeilen meist bereits die wichtigsten Begriffe zur groben
Identifikation des gesamten Inhalts. Somit ist die Idee, nur die ersten 100
KB einer Seite zu verarbeiten nicht unklug, aber dennoch entsteht
zweifelsfrei ein Informationsverlust, wenn die Datei länger ist.

In unserem Indexierungswerkzeug intelligentCAPTURE - nunmehr schon in
Bibliotheken in 4 Staaten im Einsatz - werden PDF-Dateien komplett
extrahiert, d.h.,  der Text wird herausgeholt, auch dann, wenn es einige
tausend Seiten sind (z.B. Komplettabzüge ganzer Internet-Sites, große
Bücher etc.)
eJournals: Insbesondere bei wissenschaftlichen Artikeln kommen mehrspaltige
Texte häufig vor (bessere Lesbarkeit). Eine normale PDF-Textextraktion
liest zeilenweise - über mehrere Spalten hinweg. Somit werden getrennte
Worte falsch extrahiert und sind dann nicht suchbar. Wir extrahieren
deshalb Spalten mit einem eigenen Verfahren gemäß dem inhaltlichen
Textfluss und führen die Daten der Indexierung zu. Indexierung meint nicht
Volltextindizierung, sondern das Erkennen möglichst sinnvoller
Deskriptoren, freien Deskriptoren, geografische Begriffe, Personen,
Organisationen und sonstiger Merkmale wie Abstract, DOI und Ähnliches.

Zusätzlich kann dandelon und das Portal Informationswissenschaften - beide
basieren auf intelligentSEARCH - alle PDF-Dateien komplett auch mittels
Volltextrecherche durchsuchen. Bis zur letzten Zeile ist jedes Wort
findbar. In Dandelon gibt es Inhaltsverzeichnisse von über 50 Seiten, im
Portal Informationswissenschaft Aufsätze und bisher ein Buch mit einigen
hundert Seiten.
Durch die morphologische Analyse der Queries, die per Default automatische
Zuschaltung von Synonymen und Übersetzungen können dann auch PDF-Dateien
gefunden werden, welche die vom Benutzer eingetippten Suchworte gar nicht
so enthalten - aber sinngemäß dazu passen.

Die meisten Artikel in dandelon.com werden zukünftig nicht als PDF im
Volltext suchbar sein, sondern nur deren Indexate - mit einem dynamischen
Link auf die Volltexte - für den der darf/kann: das Urheberrecht und
Verlagsinteressen sind unsere Grenze.

Für 2005 sind noch gründlichere Analysen dieser Dateien geplant. Dafür
suchen wir derzeit neue Mitarbeiter oder Partner.

http://www.dandelon.com,
http://www.dgi-info.de

Mit freundlichem Gruß
Manfred Hauer


AGI - Information Management Consultants
Dipl.-Inf.wiss. Manfred Hauer M.A.
Mandelring 238 b
67433 Neustadt / Weinstrasse
+49 6321 96 35 - 10
Manfred.Hauer@xxxxxxxxxx
http://www.agi-imc.de
http://www.dandelon.com


Listeninformationen unter http://www.inetbib.de.