<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Selbstversuch, eigener Webcrawler]]></title><description><![CDATA[<p>hallo community, ich plane einen eigenen Webcrawler zu schreiben, der Seiten nach links durchforsten , indizieren und lesen und bestimmte ergebnisse auf meiner Festplatte speichern kann. Ich will dazu genau wie google c++ verwenden, genauergesagt wxwidgets(die daten sollen auch noch weiterverarbeitet werden). Wie würdet ihr vorgehen. Muß sich ein crawler an die robots.txt halten, eurer ansicht nach? Wie schaffe ich es, dass beim user in den logfiles sowas steht wie beim googlebot?</p>
<p>mfg cruel</p>
]]></description><link>https://www.c-plusplus.net/forum/topic/187079/selbstversuch-eigener-webcrawler</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:48:40 GMT</lastBuildDate><atom:link href="https://www.c-plusplus.net/forum/topic/187079.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 15 Jul 2007 15:22:28 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Sun, 15 Jul 2007 15:22:28 GMT]]></title><description><![CDATA[<p>hallo community, ich plane einen eigenen Webcrawler zu schreiben, der Seiten nach links durchforsten , indizieren und lesen und bestimmte ergebnisse auf meiner Festplatte speichern kann. Ich will dazu genau wie google c++ verwenden, genauergesagt wxwidgets(die daten sollen auch noch weiterverarbeitet werden). Wie würdet ihr vorgehen. Muß sich ein crawler an die robots.txt halten, eurer ansicht nach? Wie schaffe ich es, dass beim user in den logfiles sowas steht wie beim googlebot?</p>
<p>mfg cruel</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1325953</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1325953</guid><dc:creator><![CDATA[cruel]]></dc:creator><pubDate>Sun, 15 Jul 2007 15:22:28 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Sun, 15 Jul 2007 17:24:57 GMT]]></title><description><![CDATA[<p>Dieser Thread wurde von Moderator/in <a href="http://www.c-plusplus.net/forum/profile-var-mode-is-viewprofile-and-u-is-403.html" rel="nofollow">HumeSikkins</a> aus dem Forum <a href="http://www.c-plusplus.net/forum/viewforum-var-f-is-15.html" rel="nofollow">C++</a> in das Forum <a href="http://www.c-plusplus.net/forum/viewforum-var-f-is-51.html" rel="nofollow">Andere GUIs - Qt, GTK+, wxWidgets</a> verschoben.</p>
<p>Im Zweifelsfall bitte auch folgende Hinweise beachten:<br />
<a href="http://www.c-plusplus.net/forum/viewtopic-var-t-is-39405.html" rel="nofollow">C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?</a></p>
<p><em>Dieses Posting wurde automatisch erzeugt.</em></p>
]]></description><link>https://www.c-plusplus.net/forum/post/1326014</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1326014</guid><dc:creator><![CDATA[C++ Forumbot]]></dc:creator><pubDate>Sun, 15 Jul 2007 17:24:57 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Sun, 15 Jul 2007 19:20:58 GMT]]></title><description><![CDATA[<p>ein crawler MUSS sich an robots.txt halten</p>
<p>grundsätzlich sollte der kern gui-unabhängig sein (da sich boost, besonders boost::asio für einiges anbietet)</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1326089</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1326089</guid><dc:creator><![CDATA[ronny]]></dc:creator><pubDate>Sun, 15 Jul 2007 19:20:58 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Sun, 15 Jul 2007 21:19:08 GMT]]></title><description><![CDATA[<p>Stimme Ronny zu. Und GUI ist bei einem Crawler eigentlich fehl am Platz.<br />
Es könnte höchstens einen Einstellungsdialog geben, sonst aber eigentlich keine GUI.<br />
Es sei denn, du möchtest die gecrawlten Seiten visualisieren...</p>
<p>Generell würde ich so vorgehen:<br />
boost::asio für HTTP,<br />
boost::spirit fürs parsen der Webseiten<br />
evtl. boost::graph für die Datenhaltung, wenn die Seiten komplexer werden.</p>
<p>wxWidgets wäre imho nur für die Sockets geeignet, bietet dort aber auch keine gute HTTP Implementierung,<br />
so das boost::asio hier imho gleichwertig, und vom &quot;Stil&quot; sogar wesentlich besser ist.</p>
<p>phlox</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1326160</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1326160</guid><dc:creator><![CDATA[phlox81]]></dc:creator><pubDate>Sun, 15 Jul 2007 21:19:08 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Sun, 15 Jul 2007 21:17:44 GMT]]></title><description><![CDATA[<p>Dieser Thread wurde von Moderator/in <a href="http://www.c-plusplus.net/forum/profile-var-mode-is-viewprofile-and-u-is-1652.html" rel="nofollow">phlox81</a> aus dem Forum <a href="http://www.c-plusplus.net/forum/viewforum-var-f-is-51.html" rel="nofollow">Andere GUIs - Qt, GTK+, wxWidgets</a> in das Forum <a href="http://www.c-plusplus.net/forum/viewforum-var-f-is-8.html" rel="nofollow">Rund um die Programmierung</a> verschoben.</p>
<p>Im Zweifelsfall bitte auch folgende Hinweise beachten:<br />
<a href="http://www.c-plusplus.net/forum/viewtopic-var-t-is-39405.html" rel="nofollow">C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?</a></p>
<p><em>Dieses Posting wurde automatisch erzeugt.</em></p>
]]></description><link>https://www.c-plusplus.net/forum/post/1326166</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1326166</guid><dc:creator><![CDATA[C++ Forumbot]]></dc:creator><pubDate>Sun, 15 Jul 2007 21:17:44 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Sun, 15 Jul 2007 23:07:11 GMT]]></title><description><![CDATA[<p>cruel schrieb:</p>
<blockquote>
<p>Muß sich ein crawler an die robots.txt halten, eurer ansicht nach?</p>
</blockquote>
<p>Ja!</p>
<blockquote>
<p>Wie schaffe ich es, dass beim user in den logfiles sowas steht wie beim googlebot?</p>
</blockquote>
<p>Was? Meinst du den User-Agent? Na ganze einfach: Den User-Agent so setzen, wie du willst <img
      src="https://www.c-plusplus.net/forum/plugins/nodebb-plugin-emoji/emoji/emoji-one/1f642.png?v=ab1pehoraso"
      class="not-responsive emoji emoji-emoji-one emoji--slightly_smiling_face"
      title=":)"
      alt="🙂"
    /> (siehe HTTP-RFC, wenn du nicht weißt was das ist ;))</p>
<p>(und ja: Nimm lieber Boost.Asio)</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1326206</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1326206</guid><dc:creator><![CDATA[rüdiger]]></dc:creator><pubDate>Sun, 15 Jul 2007 23:07:11 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Mon, 23 Jul 2007 05:00:54 GMT]]></title><description><![CDATA[<p>cruel schrieb:</p>
<blockquote>
<p>Muß sich ein crawler an die robots.txt halten, eurer ansicht nach?</p>
</blockquote>
<p>nein.</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1330491</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1330491</guid><dc:creator><![CDATA[quatsch]]></dc:creator><pubDate>Mon, 23 Jul 2007 05:00:54 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Tue, 31 Jul 2007 14:12:05 GMT]]></title><description><![CDATA[<p>Hallo Leute,<br />
habe den gleichen selbstversuch vor.<br />
Bin allerdings ein C++ Neuling und möchte nun wissen ob Ihr mir zu den gennantem Thema ein paar Bücher oder Quellen vorschlagen könnt, die mir den Einstieg in boost::asio für HTTP,boost::spirit fürs parsen der Webseiten leichter machen.</p>
<p>Grüße von mir!</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1335838</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1335838</guid><dc:creator><![CDATA[Almare]]></dc:creator><pubDate>Tue, 31 Jul 2007 14:12:05 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Tue, 31 Jul 2007 22:10:44 GMT]]></title><description><![CDATA[<p>ronny schrieb:</p>
<blockquote>
<p>ein crawler MUSS sich an robots.txt halten</p>
</blockquote>
<p>Wer sagt das? Wo steht das geschrieben? Welches Gesetz?</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1336180</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1336180</guid><dc:creator><![CDATA[hustbaer]]></dc:creator><pubDate>Tue, 31 Jul 2007 22:10:44 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Tue, 31 Jul 2007 22:58:22 GMT]]></title><description><![CDATA[<p>hustbaer schrieb:</p>
<blockquote>
<p>ronny schrieb:</p>
<blockquote>
<p>ein crawler MUSS sich an robots.txt halten</p>
</blockquote>
<p>Wer sagt das? Wo steht das geschrieben? Welches Gesetz?</p>
</blockquote>
<p>Der Anstand? Ansonsten ist außerdem die Wahrscheinlichkeit hoch, dass du von diversen Seiten gebannt wirst.</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1336201</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1336201</guid><dc:creator><![CDATA[Mr. N]]></dc:creator><pubDate>Tue, 31 Jul 2007 22:58:22 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Wed, 01 Aug 2007 08:46:29 GMT]]></title><description><![CDATA[<p>Aus meinen Bookmarks, könnte vielleicht interessant sein:<br />
<a href="http://www-128.ibm.com/developerworks/linux/library/l-spider/?ca=dgr-lnxw01WebSpiderLinux" rel="nofollow">Build a Web spider on Linux</a></p>
]]></description><link>https://www.c-plusplus.net/forum/post/1336319</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1336319</guid><dc:creator><![CDATA[nman]]></dc:creator><pubDate>Wed, 01 Aug 2007 08:46:29 GMT</pubDate></item><item><title><![CDATA[Reply to Selbstversuch, eigener Webcrawler on Wed, 01 Aug 2007 10:32:46 GMT]]></title><description><![CDATA[<p>Ob sich der Crawler an die robots.txt halten sollte hängt wohl stark vom Einsatzzweck ab.<br />
Bei einer Suchmaschine würde ich ja sagen, aber bei einem Programm wie HTTrack würd ich nein sagen.</p>
]]></description><link>https://www.c-plusplus.net/forum/post/1336402</link><guid isPermaLink="true">https://www.c-plusplus.net/forum/post/1336402</guid><dc:creator><![CDATA[lolz]]></dc:creator><pubDate>Wed, 01 Aug 2007 10:32:46 GMT</pubDate></item></channel></rss>