Suche einen simplen Webcrawler / Tool für eine Sitemap.



  • Ich suche einen simplen Webcrawler der folgendes leisten soll.

    1. Durchsuchen aller Seiten einer Site
    2. Protokollieren aller Links (inkl. Images) die vorhanden sind mit den folgenden Infos.
    a. URL mit dem Verweis.
    b. Ziel (Image oder Link)
    c. Info ob Link vorhanden ist oder nicht.

    Das ganze vorzugsweise als Textdatei.

    Ich habe schon einige Crawler angeschaut oder auch Tools für die Erzeugung von Sitemaps, allerdings habe ich nichts gefunden was annähernd diese Infos liefert.

    Es darf auch ein Online Tool sein, allerdings sollte die Anzahl der erlaubten Seiten nicht begrenzt sein.

    Hat jemand einen Tipp? TIA


  • Global Moderator

    Martin Richter schrieb:

    Hat jemand einen Tipp? TIA

    Das klingt tendenziell nach etwas, was man mit relativ wenig Aufwand selber programmieren könnte. HTML-Parser und URL-Handling und Webseitenaufrufe sollte es für so ziemlich jede Sprache geben. Ich vermute, man könnte das mit 50-100 Zeilen Pythoncode locker hinbekommen. Es sollte auch sehr viele Tutorials geben, die einfache Webcrawler programmieren, die man dann nach dem eigenen Spezialbedarf anpassen kann, selbst wenn man selber nicht so fit im Programmieren ist.



  • Hast du schon mal nachgesehen, wie weit du hier mit Haskell-Bibliotheken kommst?

    (hier ist ein einfaches Beispiel
    https://github.com/chrisbloecker/pardis/blob/master/app/Crawler.hs
    aus dem Buch:
    "Parallel Processing and Applied Mathematics: 12th International ..., Teil 2
    herausgegeben von Roman Wyrzykowski, Jack Dongarra, Ewa Deelman, Konrad Karczewski"

    Ansonsten, was leistet HTTtrack im Moment?
    ( https://www.httrack.com )



  • Das Tool sollte bis auf die Begrenzung (in der kostenlosen Version) für Deine Zwecke zu gebrauchen sein. https://www.screamingfrog.co.uk/seo-spider/

    Ansonsten vielleicht ein Bashscript mit Curl, grep etc. basteln.