pdf erstellen aus html/latex mix



  • Ich möchte aus Text der Form

    www.phynet.de/private/snOOfy/drk-1.txt

    ein pdf der Form

    www.phynet.de/private/snOOfy/drk-1.pdf

    erstellen, und zwar mit möglichst wenig Aufwand. Wie mache ich das am besten?

    Das Problem ist, dass der Text eine Mischung aus html und latex ist. Außerdem sind png-Grafiken als html-Links drin.
    Meine Idee ist, ein Tool zu schreiben, das den Text in richtiges latex umwandelt und dann als pdf druckt. Ist das sinnvoll? Oder gäbe es eine bessere/einfachere Möglichkeit?



  • Open Office 3.0 und Nachfolger?



  • Wenn man nur die HTML-Elemente h1 , h2 ,... und img umwandeln muss, wären würde Regexe nehmen.

    Ich bin mir nur nicht sicher, ob die den "Microsoft-Style" beim PDF so leicht kopieren kannst. 😉



  • @f.-th.: OpenOffice kann latex Formeln in Vektorgrafiken umwandeln? Wie geht das?

    @Rhombicosidodecahedron: Meinst du http://www.regexe.de/ ? Ich verstehe nicht so recht, was das macht. Strings suchen und ersetzen kann ich doch auch mit einem Texteditor...

    Der Stil ist egal, Hauptsache man erkennt Überschriften als solche. Außer den <h1>...<h4> und <img> gibt es noch <strong> und Aufzählungen mit <ol> und <ul>.



  • Das sollte an sich kein Problem sein. Mach Dir ein schönes Gerüst, wo Du den TeX-Code nach deinem Preprocessing einbindest und lass den Typesetter laufen. Für den Preprocessor solltest Du erst die Links abklappern und mit wget o.ä. die Files holen. Der Rest sollten dann recht einfache Textersetzungen sein, z.B. einfach "</irgendwas>" mit "}" ersetzen und "<strong>" mit "\textbf{", "<h1>" mit "\section{", usw.



  • Ich hab bisher mit Open-Office Bilder, Dokumente und Text als/zu PDF zusammengefasst.

    Deine spezielle Aufgabe hab ich damit noch nicht gelöst.
    Wenn ich hiervon:
    http://de.openoffice.org/product/writer.html
    ausgehe, bestehen durchaus Chancen das möglich ist.

    MfG f.-th.



  • Naja, OOo kann halt irgendwie HTML und LaTeX exportieren, über Import steht da erstmal nicht viel. Bei letzterem wird der aber, sofern möglich, eher sehr eingeschränkt machbar sein. Auch ist unklar, ob ein Importer mit solch einem Mix aus LaTeX/HTML klarkommt. Aber anschauen kostet ja nichts.



  • So, ich habe jetzt ein Java-Programm geschrieben, das die Ersetzungen vornimmt und die Bilder downloadet. Der Output sieht wie folgt aus:

    www.phynet.de/private/snOOfy/drk-1-tex.txt

    Der Text ist im Programm als String-Vector gespeichert. Gibt es eine Java-Library, mit der ich daraus ein pdf machen kann? Ich hätte gerne alles in einem Programm, so dass ich da nicht immer noch einen externen Typesetter laufen lassen muss, habe aber leider nichts Passendes gefunden...



  • snOOfy schrieb:

    Der Text ist im Programm als String-Vector gespeichert. Gibt es eine Java-Library, mit der ich daraus ein pdf machen kann? Ich hätte gerne alles in einem Programm, so dass ich da nicht immer noch einen externen Typesetter laufen lassen muss, habe aber leider nichts Passendes gefunden...

    Es wird wohl direkt auf pdflatex / Tex hinauslaufen.

    Eine einfache Lösung gibt es dabei jedoch nicht.

    Du musst eben über latex gehen und dabei eine TeX-Distribution mitliefern.

    Auch wenn es zu spät ist, falls das Mathe-Latex nur dem mathe-Modus " $ ... $ " ohne zusätzliche benutzerdefinierte Makros enthält, kannst du auch versuchen, das Latex in MathML umzuwandeln und im Browser (der MathML versteht) mit einem pdf-Druckertreiber auszudrucken. Dann müsstest du trotzdem einen Browser mitliefern und dazu noch einen pdf Druckertreiber (ist aber wahrscheinlich kleiner als bei latex, aber vmtl. langsamer)


Log in to reply