HTML Datei direkt einlesen



  • Hi Leute,
    weiß jemand von euch wie ich den direkten Text von Webseiten einlesen kann. Also nicht die Website an sich sondern nur den Text? 😕

    Thx schonmal

    Isaac 🕶



  • Ich denke doch mal, das du da parsen musst,

    Website einlesen
    Parser drüber laufen lassen...

    Sonst wüsste ich jetzt nix



  • Hier ist eine Funktion die ich mir mal geschrieben hattte,um Html in Normalen Text umzuwandeln,sie berücksichtigt zwar nicht alle &-Zeichen oder Html-Tags die Zeilenumbrüche verursachen,aber das entfernen der Tags,der doppelten Leerzeichen,unnötiger Zeilenumbrüche und Tabs klappt.

    CString html2plain(CString in)
    {   
     TCHAR a = 13;
     TCHAR b = 10;
     in.Replace(a,b);
     in.Replace("\t","");
     in.Replace("\n","");
     in.Replace("</p>","\n");
     in.Replace("<br>","\n");
     in.Replace("</div>","\n");
     in.Replace("ä","ä");
     in.Replace("Ä","Ä");
     in.Replace("ö","ö");
     in.Replace("Ö","Ö");
     in.Replace("ü","ü");
     in.Replace("Ü","Ü");
     in.Replace("ë","é");
     in.Replace("é","é");
     in.Replace("ß","ß");
     in.Replace("ü","ü");
     in.Replace("Ü","Ü");
     in.Replace("´","`");
     in.Replace("ä","ä");
     in.Replace("ß","ß");
     in.Replace(" "," ");
    while(in.Find("<")>-1)
     {
      in = in.Left(in.Find("<")) + in.Mid(in.Find(">",in.Find("<"))+1); 
     }
    
     while(in.Find("  ")>-1)
     {
      in.Replace("  "," ");
     }
     while(in.Find("\n\n")>-1)
     {
      in.Replace("\n\n","\n");
     }
     return in;
    }
    

    [ Dieser Beitrag wurde am 20.02.2003 um 12:16 Uhr von Andorxor editiert. ]


Anmelden zum Antworten