Daten aus Website extrahieren

ingobulla

Hallo,

ich würde gerne eine Programm schreiben, dass eine Website überwacht und mich informiert, wenn dort bestimmte Inhalte auftreten.

Um es weniger abstrakt zu machen: Es geht im wesentlichen darum aus der Tabelle "Aktuelle Kreditprojekte auf dem Marktplatz" auf http://www.smava.de/index.html Informationen zu extrahieren, auszuwerten und ggf. eine Email an mich zu schicken.

Da dies das erste Mal ist, dass ich etwas im Bereich Web-Programmierung machen will, könnte jemand mir im Groben sagen, wie man da am besten ran geht?

GNU-Fan

Hallo,

schau dir doch mal wget oder die libcurl an,

Badestrand

Ganz unten auf der Seite sind RSS-Feeds angegeben, mit denen würde ich arbeiten. Also einfach regelmäßig den Feed runterladen, durch einen XML-Parser jagen und Datenstruktur aufbauen. Dann vergleichen mit der vorherigen und die Diff gut aufbereitet per Mail schicken.

ingobulla

Ich habe mit wget die Seite runtergeladen und mit libxml2 geparset. Die Knoten der HTML-Datei zu durchlaufen ist kein Problem, aber mir ist nicht klar, wo in

Structure xmlNode
struct _xmlNode {
    void *	_private	: application data
    xmlElementType	type	: type number, must be second !
    const xmlChar *	name	: the name of the node, or the entity
    struct _xmlNode *	children	: parent->childs link
    struct _xmlNode *	last	: last child link
    struct _xmlNode *	parent	: child->parent link
    struct _xmlNode *	next	: next sibling link
    struct _xmlNode *	prev	: previous sibling link
    struct _xmlDoc *	doc	: the containing document End of common p
    xmlNs *	ns	: pointer to the associated namespace
    xmlChar *	content	: the content
    struct _xmlAttr *	properties	: properties list
    xmlNs *	nsDef	: namespace definitions on this node
    void *	psvi	: for type/PSVI informations
    unsigned short	line	: line number
    unsigned short	extra	: extra data for XPath/XSLT
}

die Informationen enthalten sind, die z.B. in

<title>Kredit Ratenkredit Privatkredit Sofortkredit - smava.de</title>

stecken. Soll heissen: Wie komme ich an

Kredit Ratenkredit Privatkredit Sofortkredit - smava.de

?

Kann mir das jemand sagen oder irgendwo hinverweisen, wo man es nachlesen kann (auf der Homepage von libxml wurde ich nicht fündig)? Des Weiteren: Ist libxml eigentlich der Standard zum parsen von HTML-Dateien oder sind andere Bibliotheken vorzuziehen?

Badestrand

Evtl "content"? Sonst einfach mal mit dem Debugger schauen, welche Felder wie gesetzt sind.