PDF to HTML



  • Hi,
    ich würde gerne ein Tool programmieren, welches PDF in HTML umwandelt. Meine Suche ergab, dass es so ein Programm gibt, aber dieses kostet mir zu viel Geld.
    Meine Recherche zu libraries, welche PDF Dateien auslesen können ergab allerdings nichts zufriedenstellendes. Genauer gesagt hab ich nur Libraries gefunden, welche PDFs erstellen, auslesen fehlanzeige.

    Meine Fragen an euch sind jetzt:
    1. Kennt ihr eine gute Library mit der es möglich ist PDFs auszulesen? OpenSource oder auch kommerziell. Opensource aber bevorzugt.
    2. Wie seht ihr den Aufwand für solch ein Tool?
    Es soll Überschriften und Absätze erkennen sowie ob Text fett bzw. kursiv ist. Tabellen auslesen muss es nicht können.

    Ich suche mal weiter und danke euch für jede Antwort!



  • pdfmann schrieb:

    2. Wie seht ihr den Aufwand für solch ein Tool?

    Ein Wort: ENORM.



  • Schonmal drangedacht das es Opensource PDF Anzeige Tools gibt?
    XPDF, Evince, KPDF, Ghostscript's Ghostview , etc ...

    Da kannste ja den SOurce ansehn bzw deren dependencies anschaun,
    was die verwenden...

    Aber ich haltedeine Arbeit für unnötig,
    wenn ich in meine Linux Konsole öffne und pdf eintippe udn dan <TAB> drücke, hab ich ne liste von pdf zu xyz konvertern - auch zu HTML. und das OSS

    //EDIT:
    Eine beispiel Library: Poppler


Log in to reply