XML aus PDF extrahieren

HerrRatlose

Hallo ihr Lieben,
ich suche nach einem Weg, mit dem ich ein eingebettetes XML aus einem PDF-Dokument extrahieren kann. Die Beispiele die ich im Netz bisher finden konnte funktionieren nicht (oder ich mache was falsch :-()
Es wäre Klasse, wenn mir jemand helfen könnte.
Letztendlich geht es darum, aus einer E-Rechnung den XML-Teil herauszuholen und die Rechnungsdaten weiter zu verwenden.

Ich habe eine E-Rechnung vorliegen, wo der XML Teil "lesbar" ist, dass dann auseinanderzufummeln war kein Problem, aber wenn es eingebettet ist (Factur-X) kome ich nicht weiter.

Vielen Dank im Voraus

HerrRatlose

Hi, hat echt niemand eine Idee, habe die Bibliothek von Apache laut Beispiel probiert, das funktioniert aber nicht. Da ich die Struktur nicht kenne, habe ich noch keine Lösung, wenn jemand weiter weiß, wäre das echt Klasse.
Nochmal Vielen Dank

*john 0

Ein PDF ist kein Datenformat um Strukturen aus Dokumenten zu extrahieren. PDFs sind dazu da Dokumente für den Druck vorzubereiten bzw. als druckfertige Vorlage zu verteilen. Will man da wieder Strukturen heraus bekommen, muss man den Weg über OCR gehen.

Schlangenmensch

@HerrRatlose Wo kommst du denn nicht weiter? Mit dem speziellen Thema habe ich mich nicht beschäftigt, aber hier: https://pypi.org/project/factur-x/ gibt es ein Pyhton Paket, dass genau das macht. Da könntest du dich inspirieren lassen. Und hier: https://fnfe-mpe.org/factur-x/factur-x_en/ gäbe es die Spezifizierung von Factur-X, wenn man das selbst alles von Hand machen nachbauen möchte.

@john-0 In dem Fall ist das aber genau dafür gedacht. Der PDF Teil ist für den Kunden zum lesen/drucken, was auch immer und ein eingebettetes XML für die elektronische Weiterverarbeitung der Rechnung.

*john 0

@Schlangenmensch sagte in XML aus PDF extrahieren:

@john-0 In dem Fall ist das aber genau dafür gedacht. Der PDF Teil ist für den Kunden zum lesen/drucken, was auch immer und ein eingebettetes XML für die elektronische Weiterverarbeitung der Rechnung.

XFA war nur eine proprietäre Erweiterung von Adobe, und wurde nie in die ISO Norm übernommen. Mit PDF 2.0 ist auch das Geschichte.