Inhalt einer Website "analysieren"



  • Hallo,
    dieser Thread hier ist einfach nur aus Interesse. Ich bin 14 und habe lediglich Interesse daran, C++ zu lernen. Die Basics habe ich bereits gelernt.

    Also zu meiner Frage:
    wie ist es am besten Möglich den Inhalt einer Website zu "analysieren" und Änderungen detected werden. Zum Beispiel: eine 0 wird zu einer 1 auf einer Website. Diese Änderung erscheint nun in der Konsole.

    Wie ich vorgehen würde:
    Ich würde den Sourcecode der Website in einem StringArray speichern ( das wird alle 10 Sekunden durchgeführt, um Änderungen zu erkennen ) .
    Es wird immer nach dieser 1 gesucht ( in einer bestimmten Zeile ). Und wenn diese 1 gefunden wird, gibt es eine Nachricht aus.

    Das Ding ist, ich weiß nicht, wie ich sowas praktisch machen soll, wie z.B. den Sourcecode einer Website in einem Array speichern.

    Wie könnte ich das machen ?
    MfG


  • Mod

    Du könntest es in einem String speichern. Wenn dir das noch nichts sagt, dann solltest du zuerst einmal ganz dringend weiter die Grundlagen büffeln, denn das ist sehr wichtig.

    Praktisches Problem: Sehr viele Webseiten sind nicht so einfach aufgebaut, als das man mit dem Quelltext den Inhalt erfassen könnte. Oft steht das, was man unter dem Inhalt einer Seite versteht, nur indirekt über Verweise im Quelltext der Hauptseite. Um überhaupt eine Chance zu haben, solche Fälle zu erfassen, muss man das HTML der Seite verstehen (und HTML ist nicht so ganz einfach) und selbst wenn man es versteht, ist das schwierig zu definieren, was genau den Inhalt einer Seite ausmacht. An speziellen Einzelfällen kann man das machen, aber alllgemein ist das ein sehr schwieriges Problem.



  • @SeppJ sagte in Inhalt einer Website "analysieren":

    Um überhaupt eine Chance zu haben, solche Fälle zu erfassen, muss man das HTML der Seite verstehen (und HTML ist nicht so ganz einfach)

    Oder noch schlimmer: Der Inhalt, an den man heran will, materialisiert sich erst, nachdem man das ganze Javascript ausgeführt hat, das tunlichst auch alle modernen Web-APIs unterstützen sollte.

    Für einfach aufgebaute Webseiten ist das aber dennoch eine nette Übung - für eine ernsthafte Lösung kommt man aber wohl leider um schwerere Geschütze wie das Einbinden einer vollwertigen Browser-Engine nicht herum 😞 ... früher war das mal alles leichter 😉


Log in to reply