Crawler, Webbot, etc.

Tag auch,

ich würde gerne eine Art Crawler, bzw. Webbot programmieren zwecks Informationsbeschaffung programmieren. Dabei geht es mir nur um Textdateien. Das Einsatzgebiet steht noch nicht richtig fest, aber ich die Grundlagen sind ja fast immer die selben. Ich denke da an Urls runterladen, text extrahieren, links extrahieren, wie auch immer katalogisieren und ggf weiterverfolgen. Besonders beim Link extrahieren ergeben sich schon viele Schwierigkeiten.
Ich bin deshalb dankbar für alle Informationen, die ihr mir so zu den Grundlagen eines solchen Bots bzw. Crawlers geben könnt. Sehr interessieren mich natürlich auch irgendwelche Beispiele (Sourcecodes), am besten natürlich in deutsch.

Ich hab hier im Forum nach den verschiedensten Stichworten gesucht, aber nichts gefunden. Ich bitte davon abzusehen, mich nur nach google zu verweisen, dort habe ich unter anderem schon ein paar kleinere Recherchen durchgeführt (außerdem mindern solche Posts oft die Existenzberechtigung eines solchen Forums). Ich hoffe, dass ihr mir Aufgrund der großen Menge hier vorhandenen (kompetenten) Leute besser helfen könnt.

Vielen Dank

Sven Vast

Walli

Sven Vast schrieb:

(außerdem mindern solche Posts oft die Existenzberechtigung eines solchen Forums).

Ja ne, is klar. Schonmal auf sourceforge.net versucht???