.pdf Auslesen

Dappeljuh

Hallo Forum,
Hat jemand eine Idee wie man eine .pdf auslesen kann? Es handelt sich um eine Tabelle, die alle zwei bis vier Wochen geändert wird.
Alternativ wäre eine Konvertierung in Excel interessant. Dann würde ich einfach die .xlsx Datei einlesen...
Danke für eure Hilfe.

PS habe das pdftoexcel converter Programm schon ausprobiert. Kaum zu gebrauchen. Adobe will monatlich 18€ für deren converter haben. Ist mir zu viel Geld.

hustbaer

PDF Files sind dummerweise nicht ganz einfach zu "scrapen"^*.
Je nachdem wie die PDFs mit denen du es zu tun hast aufgebaut sind kann dein Vorhaben also schwierig werden.

Guck dir mal iTextSharp an:

http://sourceforge.net/projects/itextsharp/

Laut http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net soll das gut geeignet sein um PDFs mit einem C# Programm zu parsen.

Ansonsten, falls die Lösung nicht 100% automatisch funktionieren muss, kannst du mal die hier beschriebenen Tools probieren:
http://www.interhacktives.com/2014/03/12/extract-data-pdf/

^*: Mit "scrapen" meine ich das automatische Suchen und Extrahieren von bestimmten Informationen aus einem grösseren Dokument. Das Parsen des PDF Formats selbst wird vermutlich nicht so komplex sein. Nur dummerweise garantiert dir keiner dass von der "Tabelle" im PDF Dokument noch etwas übrig ist was ein Programm leicht erkennen kann. Im schlimmsten Fall hast du haufenweise kleine Grafik- und Textfetzen die in komplett unsinniger Reihenfolge im PDF enthalten sind. Wenn man sie rendert kommt dann ne schöne Tabelle raus, nur sowas mit einem Programm vollautomatisch zu analysieren kann schwierig sein.