Womit kann man am besten Webseiten elektronisch auswerten? HTML Parser?



  • Ich möchte ein Programm schreiben das aktuelle* Börsenkurse diverser Webseiten
    elektronisch erfasst und die gewonnenen Daten für mich nach bestimmten Kriterien filtert und auswertet.

    Nun würde ich gerne wissen, auf welchem Wege man das am besten realisieren könnte.
    Also welche Libs und unterstützende Tools könnte man da nehmen.

    Ich denke mal, das man die Daten einfach per gewöhnliche HTTP Anfrage vom Webserver holt, dann hat man als Ergebnis die Daten in der Regel in Form von (X)HTML Dateien diverser (X)HTML Versionen vor sich, wofür man dann einen HTML Parser nehmen könnte und das was es dann noch braucht ist ein Script oder Code, der dann aus diesem HTML DOC Baum die richtigen Daten herauspult.
    Sehe ich das so richtig?

    Und falls ja, welche Werkzeuge, Tools, Libs usw. würdet ihr mir dafür empfehlen?

    Das Kernprogramm möchte ich in C++ schreiben, aber der Code, die den HTML DOC Baum auswertet, darf gerne als Plugin oder als Script einer eingebetteten Scriptsprache realisiert sein.

    Denn problematisch dürfte auch der Umstand sein, dass sich die Webseiten regelmäßig ändern könnten, was dann jedesmal ein umschreiben der Scriptdateien, die die Daten aus dem HTML DOC Baum herauspult, bedeuten würde und so etwas in C++ zu realisieren dürfte wohl etwas zu viel des Guten sein.

    Über Vorschläge was man da an Libs, Unterstützungstools usw. nehmen könnte, würde ich mich freuen.
    Vielleicht hat von euch jemand auch eine gänzlich andere Idee, mit dem man das gleiche Ziel wesentlich eleganter oder mit weniger Aufwand erreichen könnte.

    Und zuletzt hätte ich da dann noch eine Frage was die elektronische Datenerhebung als solche betrifft. Und zwar, auch wenn es technisch möglich ist, aber darf man das rechtlich überhaupt?

    PS:
    * Natürlich sind die überwiegend mit 10 Minuten Verspätung, aber mir genügt das.



  • Vielleicht python mit Beautiful Soup?
    http://www.crummy.com/software/BeautifulSoup/bs4/doc/
    Habe ich als recht geschmeidig in Erinnerung.
    Wenn du ehe mal python kennen lernen wolltest...



  • Ich würde eine offizielle API dafür nutzen. Das hat so viele Vorteile, da lohnt es sich gar nicht, Webseiten manuell zu parsen. Vor allem nicht bei sowas wie Börsenkursen, wo es APIs im Überfluss gibt.

    Google einfach mal nach "stock market quotes api".

    Es kann natürlich sein, dass das zu teuer wird, ich hab die Preise nicht geprüft. Aber solange du keine Live-Kurse brauchst und mit etwas Verspätung leben kannst, wird es bestimmt auch kostenlose APIs geben.


Anmelden zum Antworten