[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: thema: PDF 2word -2txt -... :: termine...
- Date: Wed, 3 Sep 2003 09:42:35 +0200
- From: Jörg Prante <prante _at__ hbz-nrw.de>
- Subject: Re: thema: PDF 2word -2txt -... :: termine...
Am Montag, 1. September 2003 19:24 schrieb Karl Eichwalder:
> "Karl Dietz" <karl.dietz _at__ gmx.de> writes:
> > Adresse zur automatischen Wandlung.
> > PDF to Text translator <pdf2txt _at__ sun.trace.wisc.edu>
> > PDF-URL eingeben... zurück kommt eine ASCII-datei.
>
> Bevor man in die Ferne schweift, sollte man aber erst einmal schauen,
> ob man nicht ein Tool wie "pdftotext" lokal installiert hat. Falls
> negativ, kann man "xpdf" installieren - dort ist es dabei.
>
> Mit Ghostscript werden auch pdf-Tools mitgeliefert.
Sehr geehrter Herr Dietz, sehr geehrter Herr Eichwalder,
Werbung für kommerzielle Produkte über Mailinglisten stehe ich skeptisch
gegenüber und halte sie generell für problematisch. Die Einschränkung als
Plugin für Microsoft-Produkte macht diese Information für
Nicht-Microsoft-Nutzer uninteressant. Eine Registrierung kann dazu führen,
dass die eigene Mailadresse und alle anderen Informationen in irgendwelche
Kundendatenbanken wandern und verkauft wird.
Die Programme aus Ghostscript oder xpdf reichen für die meisten einfachen
PDF-Dokumente aus, liefern aber leider auch in vielen Fällen nur suboptimale
Ergebnisse.
Man sollte seine PDF-Dokumente auch deswegen nicht per Mail durch die Gegend
schicken, da heikle Informationen darin enthalten sein könnten.
Mit ein bisschen Java-Kenntnissen habe ich mit dem freien Programmpaket
'iText' von Bruno Lowagie und Paulo Soares die besten Ergebnisse bei der
Umwandlung von PDF-Dokumenten nach Text erzielt.. PDFs lassen sich mit iText
auch in beliebige XML-Formate wandeln.
XML ist deswegen besonders interessant, da es für die Langzeitarchivierung in
öffentlichen Bibliotheken als Grundlage dienen kann, denn die proprietäre
PDF-Dokumentspezifikation könnte wegen der Abhängigkeit von einer Firma in
einigen Jahren/Jahrzehnten grosse Probleme schaffen.
Eine Wandlung nach RTF, womit Microsoft Word etwas anfangen könnte, wäre auch
mit 'iText' denkbar, ist aber durch die Struktur der Formate äusserst
schwierig und mit Aufwand verbunden - z.B. kann man in RTF nach Absätzen
formatieren, Tabellen anlegen usw., was im PDF-Format rein grafisch mit
Abständen und Linienzeichnen gelöst wird.
'iText' liegt als Open Source vor, eine sehr empfehlenswerte Sache.
http://www.lowagie.com/iText/
Herzliche Grüße
Jörg Prante
--
Jörg Prante
IT-Services Digitale Bibliothek
Online-Fernleihe und Dokumentlieferdienste
Hochschulbibliothekszentrum NRW (HBZ)
Postfach 270451, 50510 Köln
Telefon +49-221-40075-156, Fax +49-221-40075-190
http://www.hbz-nrw.de/literatur/fernleihe
Listeninformationen unter http://www.inetbib.de.