Daten aus Website extrahieren



  • Hallo,

    ich würde gerne eine Programm schreiben, dass eine Website überwacht und mich informiert, wenn dort bestimmte Inhalte auftreten.

    Um es weniger abstrakt zu machen: Es geht im wesentlichen darum aus der Tabelle "Aktuelle Kreditprojekte auf dem Marktplatz" auf http://www.smava.de/index.html Informationen zu extrahieren, auszuwerten und ggf. eine Email an mich zu schicken.

    Da dies das erste Mal ist, dass ich etwas im Bereich Web-Programmierung machen will, könnte jemand mir im Groben sagen, wie man da am besten ran geht?



  • Hallo,

    schau dir doch mal wget oder die libcurl an,



  • Ganz unten auf der Seite sind RSS-Feeds angegeben, mit denen würde ich arbeiten. Also einfach regelmäßig den Feed runterladen, durch einen XML-Parser jagen und Datenstruktur aufbauen. Dann vergleichen mit der vorherigen und die Diff gut aufbereitet per Mail schicken.



  • Ich habe mit wget die Seite runtergeladen und mit libxml2 geparset. Die Knoten der HTML-Datei zu durchlaufen ist kein Problem, aber mir ist nicht klar, wo in

    Structure xmlNode
    struct _xmlNode {
        void *	_private	: application data
        xmlElementType	type	: type number, must be second !
        const xmlChar *	name	: the name of the node, or the entity
        struct _xmlNode *	children	: parent->childs link
        struct _xmlNode *	last	: last child link
        struct _xmlNode *	parent	: child->parent link
        struct _xmlNode *	next	: next sibling link
        struct _xmlNode *	prev	: previous sibling link
        struct _xmlDoc *	doc	: the containing document End of common p
        xmlNs *	ns	: pointer to the associated namespace
        xmlChar *	content	: the content
        struct _xmlAttr *	properties	: properties list
        xmlNs *	nsDef	: namespace definitions on this node
        void *	psvi	: for type/PSVI informations
        unsigned short	line	: line number
        unsigned short	extra	: extra data for XPath/XSLT
    }
    

    die Informationen enthalten sind, die z.B. in

    <title>Kredit Ratenkredit Privatkredit Sofortkredit - smava.de</title>
    

    stecken. Soll heissen: Wie komme ich an

    Kredit Ratenkredit Privatkredit Sofortkredit - smava.de
    

    ?

    Kann mir das jemand sagen oder irgendwo hinverweisen, wo man es nachlesen kann (auf der Homepage von libxml wurde ich nicht fündig)? Des Weiteren: Ist libxml eigentlich der Standard zum parsen von HTML-Dateien oder sind andere Bibliotheken vorzuziehen?



  • Evtl "content"? Sonst einfach mal mit dem Debugger schauen, welche Felder wie gesetzt sind.


Anmelden zum Antworten