Word-Dokumente/ PDF-Dokumente verwalten
-
Dieser Thread wurde von Moderator/in HumeSikkins aus dem Forum C++ in das Forum Rund um die Programmierung verschoben.
Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?Dieses Posting wurde automatisch erzeugt.
-
Alternative - Google Desktop
Zum Betrieb des PlugIn wird Google Desktop benötigt. Google Desktop ist kostenlos und die ursprüngliche Intension des Programms war es die schwerfällige Suche von Windows XP zu verbessern. Beispielsweiße kann man nach dem Begriff "Alpahblending" suchen und Google Desktop durchsucht alle Dokumente (Word, PDF, PowerPoint, E-Mails, Excel, Textdateien, usw.) auf dem Computer und gibt die Suchergebnisse aus. ...
-
sag mir, wenn ich gerade auf dem schlauch stehe, aber was meinst du mit "index erstellen"?
also ich an deiner stelle würde es bei word dokumenten mit einer sicherlich absolut unprofessionellen methode machen, aber ich weiß halt nix anderes: einfach wie eine text-datei öffnen, dann hast du zwar auch ziemlich viel müll, aber den text hast du komplett drin und kannst mit arbeiten. bei pdf's gehts nicht, die scheinen standartmäßig verschlüsselt? zumindest hab ich theoretisch gelesen, dass man pdf's auch einfach wie text-dateien öffnen kann und dann die struktur einer pdf datei erforschen kann, aber praktisch hat das noch nie funktioniert....
-
Mit 'Index' meine ich Klartext, also ohne jegliche Formatierungen. Natürlich ist der Begriff nicht sauber, aber trifft meiner Ansicht nach am Besten was gemeint ist.
Gruß
Leo
-
Redhead schrieb:
Dir kann wirklich niemand vorwerfen du seist ungeduldig.
Unverbindliche Idee: COM-Programmierung zur Bearbeitung der beiden
Dateitypen.Danke zunächst mal für die Blumen, ja während meiner Kindheit trug ich den Beinamen 'John Franklin'.
Werd' doch bitte mit Deiner Idee ein bisschen verbindlicher!
Was ist/bringt COM-Programmierung in diesem Zusammenhang und hinsichtlich der Bearbeitung der beiden Dateitypen?Gruß
Leo
-
Wenn du beispielsweise das WORD-Dokument als COM-Objekt behandelst steht dir
in deinem Programm (fast) die gesamte Funktionalität von Word zur Verfügung.
Dazu musst du natürlich die entsprechende Anwendung, d.h. in diesem Fall Word,
installiert haben. Aber wenn das was du willst in Word selbst geht kannst du das
dann halt in deinem Programm einbauen.
Welche Möglichkeiten PDF/Acrobat hat kann ich dir nicht genauer sagen.
-
Habe bisher noch nicht mit Com-Objekten gearbeitet. Wo/Wie steige ich da am sinnvollsten ein? Bei der Suche im Netz hat sich mir bisher nichts angeboten.
Gruß
Leo
-
Hallo,
was du programmieren möchest ist eine Volltextsuche.
Da gibst schon einige Programme, schau dir mal Beagle an, das sah das letzte mal als ich es getestet habe sehr vielversprechend aus.
Eine simple Möglichkeit Worddokumente zu indizieren, ist einfach alle Buchstaben&Zahlen zu extrahieren. Da findest du dann auch deinen Dokumenttext.
Wie du PDFs einfach durchsuchen kannst weiß ich leider nicht. Aber du kannst dir mal Poppler anschauen, diese Librarie sollte dir Funktionen zum lesen von PDFs bereitstellen.COM auf Worddateien anzusetzen finde ich doof, die COM Interfaces von Word haben sich AFAIK öfters mal geändert.
-
Headhunter schrieb:
Eine simple Möglichkeit Worddokumente zu indizieren, ist einfach alle Buchstaben&Zahlen zu extrahieren.
Klingt gut! Aber wie extrahiere ich 'einfach' alle Buchstaben und Zahlen?
Gruß
Leo
-
öffnen, als .txt (nur Text) abspeichern!
-