HTML Datei direkt einlesen
-
Hi Leute,
weiß jemand von euch wie ich den direkten Text von Webseiten einlesen kann. Also nicht die Website an sich sondern nur den Text?Thx schonmal
Isaac
-
Ich denke doch mal, das du da parsen musst,
Website einlesen
Parser drüber laufen lassen...Sonst wüsste ich jetzt nix
-
Hier ist eine Funktion die ich mir mal geschrieben hattte,um Html in Normalen Text umzuwandeln,sie berücksichtigt zwar nicht alle &-Zeichen oder Html-Tags die Zeilenumbrüche verursachen,aber das entfernen der Tags,der doppelten Leerzeichen,unnötiger Zeilenumbrüche und Tabs klappt.
CString html2plain(CString in) { TCHAR a = 13; TCHAR b = 10; in.Replace(a,b); in.Replace("\t",""); in.Replace("\n",""); in.Replace("</p>","\n"); in.Replace("<br>","\n"); in.Replace("</div>","\n"); in.Replace("ä","ä"); in.Replace("Ä","Ä"); in.Replace("ö","ö"); in.Replace("Ö","Ö"); in.Replace("ü","ü"); in.Replace("Ü","Ü"); in.Replace("ë","é"); in.Replace("é","é"); in.Replace("ß","ß"); in.Replace("ü","ü"); in.Replace("Ü","Ü"); in.Replace("´","`"); in.Replace("ä","ä"); in.Replace("ß","ß"); in.Replace(" "," "); while(in.Find("<")>-1) { in = in.Left(in.Find("<")) + in.Mid(in.Find(">",in.Find("<"))+1); } while(in.Find(" ")>-1) { in.Replace(" "," "); } while(in.Find("\n\n")>-1) { in.Replace("\n\n","\n"); } return in; }
[ Dieser Beitrag wurde am 20.02.2003 um 12:16 Uhr von Andorxor editiert. ]