HTML - Problem Kapitel herauszulesen



  • Hallo Zusammen,

    so ganz sicher bin ich mir nicht, ob mein Problem hier reinpasst 😕

    Mein Problem ist folgendes:
    Ich habe ein Handbuch als eine Datei im HTML-Format. Nun muss ich diese Datei in mehrere splitten, sprich jedes Kapitel rausfischen und als extra Datei speichern (alles in C++). Das mit Kapitel suchen und finden ist alles kein Problem, nur benötige ich den Kapitelnamen wie dessen Nummer. Bisher bin ich so vorgegangen, dass ich von "<H1" bis "</H" nach Namen und Nummer so gesucht habe, dass ich alles in diesem Bereich zwischen ">" und "<" rausgefischt habe.
    Jeodch nun beim Debuggen habe ich festgestellt, dass es ein paar Kapitel gibt, die zwischen den ">" und "<" noch anderes stehen haben, was eigentlich nicht zum Kapiteltitel gehört.
    Hier ein Beispiel:

    <H1><A name=_Toc67140322></A><A name=_Toc91046585><SPAN 
    style="mso-bookmark: _Toc67140322"><![if !supportLists]><SPAN lang=EN-US 
    style="mso-ansi-language: EN-US">5. </SPAN><![endif]><SPAN lang=EN-US 
    style="mso-ansi-language: EN-US">Exporting Scan Points</SPAN></SPAN></A><SPAN 
    style="mso-bookmark: _Toc91046585"><SPAN lang=EN-US 
    style="mso-ansi-language: EN-US"> </SPAN></SPAN><!--[if supportFields]><span
    style='mso-bookmark:_Toc91046585'></span><span style='mso-element:field-begin'></span><span
    style='mso-bookmark:_Toc91046585'><span lang=EN-US style='mso-ansi-language:
    EN-US'><span style="mso-spacerun: yes"> </span>IF <span style='mso-field-code:
    "DOCVARIABLE iQapp \\* MERGEFORMAT"'>Software iQ</span> = &quot;Software&quot;
    &quot;&quot; &quot;(Software)&quot; \* MERGEFORMAT <span style='mso-element:
    field-separator'></span></span></span><![endif]--><SPAN 
    style="mso-bookmark: _Toc91046585"><SPAN lang=EN-US 
    style="mso-ansi-language: EN-US">(Software)</SPAN></SPAN><!--[if supportFields]><span
    lang=EN-US style='mso-ansi-language:EN-US'><span style='mso-element:field-end'></span></span><![endif]--><SPAN 
    lang=EN-US style="mso-ansi-language: EN-US"><o:p></o:p></SPAN></H1>
    

    Der Titel dieses Kapitels lautet: 5. Exporting Scan Points (Software)

    Leider verstehe ich diesen HTML-Code gar nicht. Welche Wörter geben mir an, dass hier der Name eines Kapitels anfängt? Woher weiss ich, was alles zu dem Kapitelnamen gehört? 😕

    ich wäre so dankbar, wenn mir jemand helfen könnte!

    ein dickes danke schön schon mal im voraus!!



  • was verstehst du nicht?
    diese Kapitel ist nicht mit H1 formatiert sondern hat einen eigene style.



  • Im Prinzip erkennst du diese eingebetteten Tags dara, daß sie mit < beginnen und mit dem nächsten > wieder enden - alles dazwischen mußt du dann herausschmeißen (außer du hast da das </H1>, das du als Endemarke für die Überschrift nutzt).

    PS: In der Redaktion wird ein Programm "Striptags" verwendet, mit dem BBCode-Tags herausgefiltert werden können. Möglicherweise gibt es was passendes für HTML



  • Unix-Tom schrieb:

    was verstehst du nicht?
    diese Kapitel ist nicht mit H1 formatiert sondern hat einen eigene style.

    das hab ich zum Bsp. nicht erkannt....

    @CStoll
    danke für den Tipp, werd mal danach schauen!


Anmelden zum Antworten