HTML-Datei parsen
-
Tagchen,
ich moechte unter Linux (Debian) eine HTML-Datei parsen
sagen wir, ich habe die Datei lokal vorliegen (mit libcurl in einen Speicherbereich schieben klappt noch nicht).Die Datei sieht so aus wie diese: http://setiathome.berkeley.edu/show_user.php?userid=7928221 und ist nicht HTML-valid
bis jetzt habe ich mir die libxml2 angeschaut, die hat einen HTML 4.0-parser dabei, aber das ist eine C-Bibliothek
der C++ wrapper libxml++ hat wiederum keinen HTNL-parser.was kann ich als C++-Beginner denn nehmen, um bestimte Informationen (Team, credits usw) aus der Datei zu bekommen?
thx4help
C167
-
Du kannst auch mit C++ auf C-Libs zugreifen.
OpenGL, WinApi, SDL, GTK sind alle mit einer C-Anbindung versehen und die werden auch in vielen C++ Programmen eingesetzt.Gruss,
DeSoVoDaMu
-
ich bin eigentlich immer auf Aussagen gestossen, dass man C-libs zwar nutzen kann, aber nicht sollte, warum weiss ich nicht. okay, denn nehm ich mal die libxml2...
oder sagen wir, ich versuche es...
thxC167
-
Dieser Thread wurde von Moderator/in HumeSikkins aus dem Forum C++ in das Forum Rund um die Programmierung verschoben.
Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?Dieses Posting wurde automatisch erzeugt.
-
Du kannst ja libxml++ nehmen und um einen eigenen Wrapper für den HTML-Parser erweitern...
-
dazu habe ich keine Erfahrung, ich fange mit C++ ja grade an, und bei PHP und insbesondere Java ist man eben schrecklich verwoehnt...
-
Ich habe mir auch mal einen HTML-Parser in C geschrieben. Ich bin aber beim Informationen aus HTML-Seiten sammeln auf strstr() und strchr() umgestiegen, weil die Daten vonach man sucht, immer in eine bestimmte Umgebung eingebettet sind. Und schneller geht es auch als jedes Tag in eine Tag/Attribut-Struktur zu überführen.
-
Hello! dkceded interesting dkceded site!