aus PDF HTML-Seiten generieren

maho

Hallo,

habt Ihr eine Idee, wie man zum Beispiel mit Hilfe von C/C++ folgendes Problem lösen kann ?
Ich will ein Programm schreiben, welches eine HTML-Seite generiert. Basis sind zwei Dateien: eine PDF-Datei, die von den Formatierungen, Schriften und Grafiken, als dem Gesamtaufbau, genau so aussieht, wie die HTML-Seite später aussehen soll. Zudem habe ich eine JPEG- und zugehörige JavaScript-Datei, aus denen spätere Linksensitive Flächen abgeleitet werden sollen. Die JavaScript-Datei enthält also Positions- und Größenangaben von Rechtecken, die beim Überfahren mit der Maus Rahmen zeigen. Innerhalb dieser Rahmen soll das Rechteck dann anklickbar sein (Beispiel: www.epaper.rhein-zeitung.de/04/12/24/BK/02/seite.html).
Konkret geht es darum, automatisch aus einer E-Paper-Zeitungsversion eine HTML-Seite in Zeitungsseitendesign zu generieren. Das heißt, ich lade die PDF-Datei und z.B. die JavaScript-Datei mit den Postionsangaben in einen Ordner und das C/C++-Programm baut daraus einen HTML-Quellcode.
PDFtoHTML als Programm geht so nicht, da der HTML-Code eben in einer bestimmten Form sein muss. Da muss ich wohl selbst etwas tippen... Oder eben ein anderes Programm abändern. Aber welches ?? ?
Ich weiß, dass das eine sehr komplexe Sache ist, ich möchte aber lediglich einen Einstieg in das Problem finden. Ich weiß zur Zeit nicht, wie ich wo ansetzen kann.
Bitte fragt nicht nach dem Sinn dieses Programm, es hat einen Sinn, das könnt Ihr glauben. Ich muss definitiv eine HTML-Seite ohne JPEG's haben.

Vielen Dank schonmal im Voraus !

C++ Forumbot

Dieser Thread wurde von Moderator/in HumeSikkins aus dem Forum C++ in das Forum Rund um die Programmierung verschoben.

Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?

Dieses Posting wurde automatisch erzeugt.

rüdiger

Was du dir vorstellst ist nicht möglich. HTML ist einfach etwas anderes als PDF. Während PDF eben eine 1:1 Darstellung im DTP Bereich forciert, ist HTML nur eine Auszeichnungssprache.

Also HTML sagt, welcher Textbereich welche Bedeutung hat und der Interpreter (idr. Webbrowser) versucht das optimal für das Ausgabemedium zu formatieren. Aber da kannst du nicht sagen, dass irgend ein Text an irgend einer Position in einem bestimmten Stil darstellt.

maho

Was du dir vorstellst ist nicht möglich. HTML ist einfach etwas anderes als PDF. Während PDF eben eine 1:1 Darstellung im DTP Bereich forciert, ist HTML nur eine Auszeichnungssprache.

Doch, das geht ganz sicher. Es gibt ja bereits PDFtoHTML-Konverter. Der Punkt ist nur, dass ich mit diesen bereits existierenden Konvertern nicht ganz so viel anfangen kann, da der HTML-Code bestimmte Aspekte beinhalten muss, die wiederum für die Bearbeitung des HTML-Quellcodes durch andere Programme wichtig ist. Prinzipiell ist sowas auch von der Logik her möglich, denn ich brauch nicht mehr, als die Texte aus dem PDF und die Angaben über Schriftgröße und Absätze usw.. Wenn ich wüßte, wie man an diese Daten eines PDF-Dokuments rankommt, dann könnte ich per Programmiersprache sofort ne HTML-Datei daraus basteln. Nur ich weiß eben nicht, wie man an den (lesbaren) Quellcode eines PDFs rankommt...

Also HTML sagt, welcher Textbereich welche Bedeutung hat und der Interpreter (idr. Webbrowser) versucht das optimal für das Ausgabemedium zu formatieren. Aber da kannst du nicht sagen, dass irgend ein Text an irgend einer Position in einem bestimmten Stil darstellt.

Naja, mit HTML bestimmst Du eben, welche Textteile wie aussehen sollen (ob das so passiert liegt allerdings beim Browser, das stimmt). Und wenn man dann noch weiß, wie Browser HTML interpretieren, was die meisten ja nahezu identisch machen, kann man den Stil ganz sicher vorgeben. Wenn ich irgendwelche Daten
aus den PDFs bekommen könnte über Textgrößen und Absätze wäre ein PDFtoHTML-Konverter nach meinen Vorstellungen und mit meinen Ansprüchen nicht mehr weit...

BugJoe

Uhu, du betreibst hier aber böses Crossposting!

maho

Ja, ich weiß, ich fühl mich auch schuldig, aber ich muss halt schnell an die Info kommen und wußte nicht ganz in welchem Teil des Forums der Beitrag am besten und schnellsten beantwortet wird. Ich hasse Leute, die das so machen, wie ich, aber man selbst sündigt dann ja doch auch mal gegen die eigenen Prinzipien.
Das Thema passt aber auch einfach in mehrere Räume und es gibt sicher einige, die die Lösung gebrauchen können.

Prof84

http://www.google.de/search?hl=de&q=PDF2HTML&meta=
*gähn*
Pro Englisch in Grundschulen, pro Google in Vorschulen ...

maho

*gähn*
Pro Englisch in Grundschulen, pro Google in Vorschulen ...

siehe oben !

rüdiger

Kann sein, dass ich dich falsch verstanden habe. Aber was meinst du mit korrekter Form?

Wenn du Informationen über PDF-Dateien haben willst, solltest du mal auf The Programmer's File Format Collection gucken.

maho

Naja, hab ich was von "korrekter Form" geschrieben ? Nee, nee, also PDF2HTML erstellt eben eine eigentlich normale HTML-Seite, die ich aber für mich nicht verwenden kann, da bestimmte Teile in Tables kommen sollen, die normalerweise nicht in Tables müssten und von dem Programm auch nicht in Tables gepackt werden. Manche Elemente sollen auch bestimmte id's bekommen, usw.. Fazit: ich muss selbst ein Progi schreiben, was so konvertiert wie ich es hinterher brauche. Die Spezifikation des PDF-Formats habe ich schon überflogen, aber nichts gefunden, woraus ich erkenne, wie man PDF-Dokumente nach ihren Schriftgrößen, Formatierungen usw. ausliest.

Prof84

PDF => HTML_1
http://www.google.de/search?hl=de&q=PDF2HTML&meta=
HTML => XML_1
http://www.google.de/search?hl=de&q=HTML2XML&meta=
XML + XSL ==(XSLT)==> HTML_2
http://www.google.de/search?hl=de&q=XML+XSLT+&btnG=Suche&meta=

*dummdidumm* *dumm*

maho

Also wie gesagt, PDF2HTML hilft mir nicht weiter. Grund: siehe oben !
Auf Google bin ich auch schon gekommen...