Webcrawler

soclhe selstgespräche sind ja echt cool -.-..--

phlox81

http://www.devarticles.com/c/a/Java/Crawling-the-Web-with-Java/
^da findest du was. So ähnlich hab ich selber schon nen crawler implementiert für WAP Seiten.

jo, danke. Das ist schon mal gut.

Gibt es dan sowas auch als php oder C/c++ projekt?

Neku

Du willst mit PHP einen Crawler bauen?
Das ist an Ineffektivität ja kaum zu toppen :p

Wozu das ganze? Suchmaschinen gibt es genug.

Eine Datei im Web lädst du im übrigen so:

$file = file_get_contents ($url);

Du willst mit PHP einen Crawler bauen?
Das ist an Ineffektivität ja kaum zu toppen :p

was würdest du sonst vorschlagen? C/C++ ?

phlox81

C++ oder .net(C#) oder Java,
fürs crawlen, die ergebnisse speicherst du am besten in einer Datenbank,
die kann man dann über ein php frontend zugänglich machen, um zu suchen.

phlox

Ich habe aber keine ahnung wie ich mir den quelltext per c++ anshenen kann und was ich dan damit machen soll ... ich verstehe ausserdem nicht warum der google bot eine kopie der seite immer speichert

Neku

sucher schrieb:

Ich habe aber keine ahnung wie ich mir den quelltext per c++ anshenen kann und was ich dan damit machen soll ... ich verstehe ausserdem nicht warum der google bot eine kopie der seite immer speichert

Weil das der Googlebot gar nicht 'immer' tut :p

Wenn du so wenig Ahnung von Programmieren hast, solltest du vielleicht mit etwas leichterem anfangen

Habe ich ja garnicht. Blos habe ich noch nie mit Sockets gearbeitet (unter C jetzt)

Lad dir doch einfach den Datenbestand vom ODP (dmoz.org) herunter... den gibts da als rdf-datei