HTML - Problem Kapitel herauszulesen
-
Hallo Zusammen,
so ganz sicher bin ich mir nicht, ob mein Problem hier reinpasst
Mein Problem ist folgendes:
Ich habe ein Handbuch als eine Datei im HTML-Format. Nun muss ich diese Datei in mehrere splitten, sprich jedes Kapitel rausfischen und als extra Datei speichern (alles in C++). Das mit Kapitel suchen und finden ist alles kein Problem, nur benötige ich den Kapitelnamen wie dessen Nummer. Bisher bin ich so vorgegangen, dass ich von "<H1" bis "</H" nach Namen und Nummer so gesucht habe, dass ich alles in diesem Bereich zwischen ">" und "<" rausgefischt habe.
Jeodch nun beim Debuggen habe ich festgestellt, dass es ein paar Kapitel gibt, die zwischen den ">" und "<" noch anderes stehen haben, was eigentlich nicht zum Kapiteltitel gehört.
Hier ein Beispiel:<H1><A name=_Toc67140322></A><A name=_Toc91046585><SPAN style="mso-bookmark: _Toc67140322"><![if !supportLists]><SPAN lang=EN-US style="mso-ansi-language: EN-US">5. </SPAN><![endif]><SPAN lang=EN-US style="mso-ansi-language: EN-US">Exporting Scan Points</SPAN></SPAN></A><SPAN style="mso-bookmark: _Toc91046585"><SPAN lang=EN-US style="mso-ansi-language: EN-US"> </SPAN></SPAN><!--[if supportFields]><span style='mso-bookmark:_Toc91046585'></span><span style='mso-element:field-begin'></span><span style='mso-bookmark:_Toc91046585'><span lang=EN-US style='mso-ansi-language: EN-US'><span style="mso-spacerun: yes"> </span>IF <span style='mso-field-code: "DOCVARIABLE iQapp \\* MERGEFORMAT"'>Software iQ</span> = "Software" "" "(Software)" \* MERGEFORMAT <span style='mso-element: field-separator'></span></span></span><![endif]--><SPAN style="mso-bookmark: _Toc91046585"><SPAN lang=EN-US style="mso-ansi-language: EN-US">(Software)</SPAN></SPAN><!--[if supportFields]><span lang=EN-US style='mso-ansi-language:EN-US'><span style='mso-element:field-end'></span></span><![endif]--><SPAN lang=EN-US style="mso-ansi-language: EN-US"><o:p></o:p></SPAN></H1>
Der Titel dieses Kapitels lautet: 5. Exporting Scan Points (Software)
Leider verstehe ich diesen HTML-Code gar nicht. Welche Wörter geben mir an, dass hier der Name eines Kapitels anfängt? Woher weiss ich, was alles zu dem Kapitelnamen gehört?
ich wäre so dankbar, wenn mir jemand helfen könnte!
ein dickes danke schön schon mal im voraus!!
-
was verstehst du nicht?
diese Kapitel ist nicht mit H1 formatiert sondern hat einen eigene style.
-
Im Prinzip erkennst du diese eingebetteten Tags dara, daß sie mit < beginnen und mit dem nächsten > wieder enden - alles dazwischen mußt du dann herausschmeißen (außer du hast da das </H1>, das du als Endemarke für die Überschrift nutzt).
PS: In der Redaktion wird ein Programm "Striptags" verwendet, mit dem BBCode-Tags herausgefiltert werden können. Möglicherweise gibt es was passendes für HTML
-
Unix-Tom schrieb:
was verstehst du nicht?
diese Kapitel ist nicht mit H1 formatiert sondern hat einen eigene style.das hab ich zum Bsp. nicht erkannt....
@CStoll
danke für den Tipp, werd mal danach schauen!