aus PDF HTML-Seiten generieren

rüdiger

Was du dir vorstellst ist nicht möglich. HTML ist einfach etwas anderes als PDF. Während PDF eben eine 1:1 Darstellung im DTP Bereich forciert, ist HTML nur eine Auszeichnungssprache.

Also HTML sagt, welcher Textbereich welche Bedeutung hat und der Interpreter (idr. Webbrowser) versucht das optimal für das Ausgabemedium zu formatieren. Aber da kannst du nicht sagen, dass irgend ein Text an irgend einer Position in einem bestimmten Stil darstellt.

maho

Was du dir vorstellst ist nicht möglich. HTML ist einfach etwas anderes als PDF. Während PDF eben eine 1:1 Darstellung im DTP Bereich forciert, ist HTML nur eine Auszeichnungssprache.

Doch, das geht ganz sicher. Es gibt ja bereits PDFtoHTML-Konverter. Der Punkt ist nur, dass ich mit diesen bereits existierenden Konvertern nicht ganz so viel anfangen kann, da der HTML-Code bestimmte Aspekte beinhalten muss, die wiederum für die Bearbeitung des HTML-Quellcodes durch andere Programme wichtig ist. Prinzipiell ist sowas auch von der Logik her möglich, denn ich brauch nicht mehr, als die Texte aus dem PDF und die Angaben über Schriftgröße und Absätze usw.. Wenn ich wüßte, wie man an diese Daten eines PDF-Dokuments rankommt, dann könnte ich per Programmiersprache sofort ne HTML-Datei daraus basteln. Nur ich weiß eben nicht, wie man an den (lesbaren) Quellcode eines PDFs rankommt...

Also HTML sagt, welcher Textbereich welche Bedeutung hat und der Interpreter (idr. Webbrowser) versucht das optimal für das Ausgabemedium zu formatieren. Aber da kannst du nicht sagen, dass irgend ein Text an irgend einer Position in einem bestimmten Stil darstellt.

Naja, mit HTML bestimmst Du eben, welche Textteile wie aussehen sollen (ob das so passiert liegt allerdings beim Browser, das stimmt). Und wenn man dann noch weiß, wie Browser HTML interpretieren, was die meisten ja nahezu identisch machen, kann man den Stil ganz sicher vorgeben. Wenn ich irgendwelche Daten
aus den PDFs bekommen könnte über Textgrößen und Absätze wäre ein PDFtoHTML-Konverter nach meinen Vorstellungen und mit meinen Ansprüchen nicht mehr weit...

BugJoe

Uhu, du betreibst hier aber böses Crossposting!

maho

Ja, ich weiß, ich fühl mich auch schuldig, aber ich muss halt schnell an die Info kommen und wußte nicht ganz in welchem Teil des Forums der Beitrag am besten und schnellsten beantwortet wird. Ich hasse Leute, die das so machen, wie ich, aber man selbst sündigt dann ja doch auch mal gegen die eigenen Prinzipien.
Das Thema passt aber auch einfach in mehrere Räume und es gibt sicher einige, die die Lösung gebrauchen können.

Prof84

http://www.google.de/search?hl=de&q=PDF2HTML&meta=
*gähn*
Pro Englisch in Grundschulen, pro Google in Vorschulen ...

maho

*gähn*
Pro Englisch in Grundschulen, pro Google in Vorschulen ...

siehe oben !

rüdiger

Kann sein, dass ich dich falsch verstanden habe. Aber was meinst du mit korrekter Form?

Wenn du Informationen über PDF-Dateien haben willst, solltest du mal auf The Programmer's File Format Collection gucken.

maho

Naja, hab ich was von "korrekter Form" geschrieben ? Nee, nee, also PDF2HTML erstellt eben eine eigentlich normale HTML-Seite, die ich aber für mich nicht verwenden kann, da bestimmte Teile in Tables kommen sollen, die normalerweise nicht in Tables müssten und von dem Programm auch nicht in Tables gepackt werden. Manche Elemente sollen auch bestimmte id's bekommen, usw.. Fazit: ich muss selbst ein Progi schreiben, was so konvertiert wie ich es hinterher brauche. Die Spezifikation des PDF-Formats habe ich schon überflogen, aber nichts gefunden, woraus ich erkenne, wie man PDF-Dokumente nach ihren Schriftgrößen, Formatierungen usw. ausliest.

Prof84

PDF => HTML_1
http://www.google.de/search?hl=de&q=PDF2HTML&meta=
HTML => XML_1
http://www.google.de/search?hl=de&q=HTML2XML&meta=
XML + XSL ==(XSLT)==> HTML_2
http://www.google.de/search?hl=de&q=XML+XSLT+&btnG=Suche&meta=

*dummdidumm* *dumm*

maho

Also wie gesagt, PDF2HTML hilft mir nicht weiter. Grund: siehe oben !
Auf Google bin ich auch schon gekommen...