.doc-Dateien öffnen



  • Hallo Leute,

    ich mach irgendwas falsch. Egal was für eine .doc-Datei ich öffne, es kommen immer dieselben Sonderzeichen (ich glaub 6 Stück). Kann mit jemand helfen? Hier mein vereinfachter Code (es soll einfach nur am Bildschirm ausgegeben werden, statt weiterverarbeitet zu werden wie im Original):

    #include <iostream>
    #include <fstream>
    #include <string>
    using namespace std;
    
    int main(int argc, char *argv[])
    {
    	string zeile;
    	ifstream in("Test.doc", ios::in | ios::binary);
    
    	if(in.good())
    	{
    		while(in.good())
    		{
    			in.read(zeile,300);
    			cout << zeile << endl;
    		}
    	}
    	else cerr << "Fehler";
    	return 0;
    }
    


  • Is nur gemutmast (richtig geschrieben???), aber kanns daran liegen, dass du es binär öffnest?

    Gruß
    Glamdring



  • gemutmaßt, würde ich behaupten

    Nein, auch wenn ich die Datei nicht binär öffne, kommen nur Sonderzeichen (meistens dasselbe). Wenn ich binär öffne, schreibt er wenigstens noch Normal.dot



  • ist das DOC Format net von WORD? Wenn ja, dann sind die Sonderzeichen hilfszeichen für Formatierung und co von WORD



  • Und wie krieg ich dann den richtigen Text?
    Ach ja, für mein Projekt bräuchte ich auch die Formatierung. Kennt einer den Aufbau einer .doc-Datei? Ich hab schon überall gesucht, aber nur so ein teures Buch gefunden.





  • Was für ein Projekt ist das, willst/mußt du wirklich einen Displayer für MS Word Dateien schreiben?

    Für welches Word
    Word97,Word2000,Word2002,Word2003
    das Format sieht für jede etwas anders aus und MS$ hat die Spezifikation des Dateiformats nicht offengelegt

    Alle Dateien die ich habe fangen so an

    ÐÏࡱá >  þÿ   ®  °  þÿÿÿ ª « ¬ ­ ÿÿÿÿ

    Ab 0x600 scheint zum ersten mal sinnvoller Text zu kommen.

    Beschaff oder schreib dir eine HEXViewer und schau die die Datei erstmal an, damit du weist wo dur deine Infos findest.
    Heißer Tyo dazu der Dateimanager Total Commander hat eine Dateiviewer der auch Hex anzeigen kann.

    Dann viel Spaß, wenn du konkrete Fragen hast vielleicht kann man helfen



  • PAD schrieb:

    Was für ein Projekt ist das, willst/mußt du wirklich einen Displayer für MS Word Dateien schreiben?

    Ich find es schrecklich, wenn Word eine html-Seite schreibt. Dann hat man unzählige nutzlose Dateien und der Quelltext ist auch noch unübersichtlich. Deshalb wollt ich mir ein Programm schreiben, das Word-Dateien einliest und html-Dateien abspeichert.

    Für welches Word
    Word97,Word2000,Word2002,Word2003

    Ich hab Word2002, deshalb wollt ich das auch für 2002 machen.



  • Wenn du nicht die informationen über die ganzen Formatierungszeichen vom Doc Format hast, hast du keine Chance, das einzige was dann gehen würde, wäre nur den ASCII-Text zu exportieren.

    Aber für das was du vorhast, würde es nicht reichen das Doument anstelle in html als pdf zu ereugen un das dann im Browser anzuzeigen?



  • Bekommt man bei pdf als Quellformat leichter die Formatierung hin? Ich bräuchte außerdem noch ein Tool, das von doc in pdf umwandelt.



  • Es gibt ein plugin für Word mit dem man direkt (ADOBE) pdf dateien erzeugt. Staroffice was ja auch Word formate kann hat ebenfalls pdf als Ausgabeformat.

    Du formatierst dann mit Word deinen Text gibst in als pdf Datei aus und läßt diese dann vom Browser anzeigen. Das Format ist in jedem Browser genuso wie du es in der Word Datei geschreiben hast.



  • Aber dann hab ich keinen Quellcode für die html-Seite! Ich möchte die Seite dann noch weiterverarbeiten können.



  • Heißer Tipp 💡 ! Bevor du dir die Mühe machst das doc-Format (welches sehr umfangreich ist) zu lesen nur, damit der HTML-Output besser wird schreib dir ein Programm was HTML einliest und die unnötigen Tags etc. entfernt.


Anmelden zum Antworten