Daten aus Website extrahieren
-
Hallo,
ich würde gerne eine Programm schreiben, dass eine Website überwacht und mich informiert, wenn dort bestimmte Inhalte auftreten.
Um es weniger abstrakt zu machen: Es geht im wesentlichen darum aus der Tabelle "Aktuelle Kreditprojekte auf dem Marktplatz" auf http://www.smava.de/index.html Informationen zu extrahieren, auszuwerten und ggf. eine Email an mich zu schicken.
Da dies das erste Mal ist, dass ich etwas im Bereich Web-Programmierung machen will, könnte jemand mir im Groben sagen, wie man da am besten ran geht?
-
Hallo,
schau dir doch mal wget oder die libcurl an,
-
Ganz unten auf der Seite sind RSS-Feeds angegeben, mit denen würde ich arbeiten. Also einfach regelmäßig den Feed runterladen, durch einen XML-Parser jagen und Datenstruktur aufbauen. Dann vergleichen mit der vorherigen und die Diff gut aufbereitet per Mail schicken.
-
Ich habe mit wget die Seite runtergeladen und mit libxml2 geparset. Die Knoten der HTML-Datei zu durchlaufen ist kein Problem, aber mir ist nicht klar, wo in
Structure xmlNode struct _xmlNode { void * _private : application data xmlElementType type : type number, must be second ! const xmlChar * name : the name of the node, or the entity struct _xmlNode * children : parent->childs link struct _xmlNode * last : last child link struct _xmlNode * parent : child->parent link struct _xmlNode * next : next sibling link struct _xmlNode * prev : previous sibling link struct _xmlDoc * doc : the containing document End of common p xmlNs * ns : pointer to the associated namespace xmlChar * content : the content struct _xmlAttr * properties : properties list xmlNs * nsDef : namespace definitions on this node void * psvi : for type/PSVI informations unsigned short line : line number unsigned short extra : extra data for XPath/XSLT }
die Informationen enthalten sind, die z.B. in
<title>Kredit Ratenkredit Privatkredit Sofortkredit - smava.de</title>
stecken. Soll heissen: Wie komme ich an
Kredit Ratenkredit Privatkredit Sofortkredit - smava.de
?
Kann mir das jemand sagen oder irgendwo hinverweisen, wo man es nachlesen kann (auf der Homepage von libxml wurde ich nicht fündig)? Des Weiteren: Ist libxml eigentlich der Standard zum parsen von HTML-Dateien oder sind andere Bibliotheken vorzuziehen?
-
Evtl "content"? Sonst einfach mal mit dem Debugger schauen, welche Felder wie gesetzt sind.