HTML - Problem Kapitel herauszulesen

Kitty82

Hallo Zusammen,

so ganz sicher bin ich mir nicht, ob mein Problem hier reinpasst

Mein Problem ist folgendes:
Ich habe ein Handbuch als eine Datei im HTML-Format. Nun muss ich diese Datei in mehrere splitten, sprich jedes Kapitel rausfischen und als extra Datei speichern (alles in C++). Das mit Kapitel suchen und finden ist alles kein Problem, nur benötige ich den Kapitelnamen wie dessen Nummer. Bisher bin ich so vorgegangen, dass ich von "<H1" bis "</H" nach Namen und Nummer so gesucht habe, dass ich alles in diesem Bereich zwischen ">" und "<" rausgefischt habe.
Jeodch nun beim Debuggen habe ich festgestellt, dass es ein paar Kapitel gibt, die zwischen den ">" und "<" noch anderes stehen haben, was eigentlich nicht zum Kapiteltitel gehört.
Hier ein Beispiel:

<H1><A name=_Toc67140322></A><A name=_Toc91046585><SPAN 
style="mso-bookmark: _Toc67140322"><![if !supportLists]><SPAN lang=EN-US 
style="mso-ansi-language: EN-US">5. </SPAN><![endif]><SPAN lang=EN-US 
style="mso-ansi-language: EN-US">Exporting Scan Points</SPAN></SPAN></A><SPAN 
style="mso-bookmark: _Toc91046585"><SPAN lang=EN-US 
style="mso-ansi-language: EN-US"> </SPAN></SPAN><!--[if supportFields]><span
style='mso-bookmark:_Toc91046585'></span><span style='mso-element:field-begin'></span><span
style='mso-bookmark:_Toc91046585'><span lang=EN-US style='mso-ansi-language:
EN-US'><span style="mso-spacerun: yes"> </span>IF <span style='mso-field-code:
"DOCVARIABLE iQapp \\* MERGEFORMAT"'>Software iQ</span> = &quot;Software&quot;
&quot;&quot; &quot;(Software)&quot; \* MERGEFORMAT <span style='mso-element:
field-separator'></span></span></span><![endif]--><SPAN 
style="mso-bookmark: _Toc91046585"><SPAN lang=EN-US 
style="mso-ansi-language: EN-US">(Software)</SPAN></SPAN><!--[if supportFields]><span
lang=EN-US style='mso-ansi-language:EN-US'><span style='mso-element:field-end'></span></span><![endif]--><SPAN 
lang=EN-US style="mso-ansi-language: EN-US"><o:p></o:p></SPAN></H1>

Der Titel dieses Kapitels lautet: 5. Exporting Scan Points (Software)

Leider verstehe ich diesen HTML-Code gar nicht. Welche Wörter geben mir an, dass hier der Name eines Kapitels anfängt? Woher weiss ich, was alles zu dem Kapitelnamen gehört?

ich wäre so dankbar, wenn mir jemand helfen könnte!

ein dickes danke schön schon mal im voraus!!

Unix-Tom

was verstehst du nicht?
diese Kapitel ist nicht mit H1 formatiert sondern hat einen eigene style.

CStoll

Im Prinzip erkennst du diese eingebetteten Tags dara, daß sie mit < beginnen und mit dem nächsten > wieder enden - alles dazwischen mußt du dann herausschmeißen (außer du hast da das </H1>, das du als Endemarke für die Überschrift nutzt).

PS: In der Redaktion wird ein Programm "Striptags" verwendet, mit dem BBCode-Tags herausgefiltert werden können. Möglicherweise gibt es was passendes für HTML

Kitty82

Unix-Tom schrieb:

was verstehst du nicht?
diese Kapitel ist nicht mit H1 formatiert sondern hat einen eigene style.

das hab ich zum Bsp. nicht erkannt....

@CStoll
danke für den Tipp, werd mal danach schauen!