Selbstversuch, eigener Webcrawler

ronny

ein crawler MUSS sich an robots.txt halten

grundsätzlich sollte der kern gui-unabhängig sein (da sich boost, besonders boost::asio für einiges anbietet)

phlox81

Stimme Ronny zu. Und GUI ist bei einem Crawler eigentlich fehl am Platz.
Es könnte höchstens einen Einstellungsdialog geben, sonst aber eigentlich keine GUI.
Es sei denn, du möchtest die gecrawlten Seiten visualisieren...

Generell würde ich so vorgehen:
boost::asio für HTTP,
boost::spirit fürs parsen der Webseiten
evtl. boost::graph für die Datenhaltung, wenn die Seiten komplexer werden.

wxWidgets wäre imho nur für die Sockets geeignet, bietet dort aber auch keine gute HTTP Implementierung,
so das boost::asio hier imho gleichwertig, und vom "Stil" sogar wesentlich besser ist.

phlox

C++ Forumbot

Dieser Thread wurde von Moderator/in phlox81 aus dem Forum Andere GUIs - Qt, GTK+, wxWidgets in das Forum Rund um die Programmierung verschoben.

Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?

Dieses Posting wurde automatisch erzeugt.

rüdiger

cruel schrieb:

Muß sich ein crawler an die robots.txt halten, eurer ansicht nach?

Ja!

Wie schaffe ich es, dass beim user in den logfiles sowas steht wie beim googlebot?

Was? Meinst du den User-Agent? Na ganze einfach: Den User-Agent so setzen, wie du willst (siehe HTTP-RFC, wenn du nicht weißt was das ist ;))

(und ja: Nimm lieber Boost.Asio)

cruel schrieb:

Muß sich ein crawler an die robots.txt halten, eurer ansicht nach?

nein.

Hallo Leute,
habe den gleichen selbstversuch vor.
Bin allerdings ein C++ Neuling und möchte nun wissen ob Ihr mir zu den gennantem Thema ein paar Bücher oder Quellen vorschlagen könnt, die mir den Einstieg in boost::asio für HTTP,boost::spirit fürs parsen der Webseiten leichter machen.

Grüße von mir!

hustbaer

ronny schrieb:

ein crawler MUSS sich an robots.txt halten

Wer sagt das? Wo steht das geschrieben? Welches Gesetz?

Mr. N

hustbaer schrieb:

ronny schrieb:

ein crawler MUSS sich an robots.txt halten

Wer sagt das? Wo steht das geschrieben? Welches Gesetz?

Der Anstand? Ansonsten ist außerdem die Wahrscheinlichkeit hoch, dass du von diversen Seiten gebannt wirst.

nman

Aus meinen Bookmarks, könnte vielleicht interessant sein:
Build a Web spider on Linux

lolz

Ob sich der Crawler an die robots.txt halten sollte hängt wohl stark vom Einsatzzweck ab.
Bei einer Suchmaschine würde ich ja sagen, aber bei einem Programm wie HTTrack würd ich nein sagen.