Wie googlet google eigentlich?



  • Ich meine: Hat google denn etwa irgendwo ne liste von dns-namen/ip-hostst,m wleches es der reihe nach druchläuft? google braucht ja eine liste von webseiten, die es durchsuchen soll. Aber woher bekomt man diese liste?



  • webcrawler.



  • es gibt nue begrenzt viele IPs



  • Nix IP`s.
    Unter einer IP kann es tausende Domains und Subdomains geben welche wiederum tausende Seiten haben.



  • Krux schrieb:

    es gibt nue begrenzt viele IPs

    klar, sind auch nur 2^32. sind wir mal großzügig, da viele davon ja gar nicht öffentlich zugänglich sind und man diese ausschließen kann, und machen nur 2^31 draus. sind wir weiterhin so großzügig und gönnen dem crawler 2 sekunden spass mit jeder seite. dann braucht er nur knapp 35 jahre, um sich alle IPs mal angeguckt zu haben.



  • a) Gibt es eine möglichkeit google zu sagen "Indexir mal meine Site" (google.com/webmasters ?)
    b) Wer von anderen verlinkt wird, der wird auch gefunden (der crawler folgt Links auf Websites)





  • thordk schrieb:

    Krux schrieb:

    es gibt nue begrenzt viele IPs

    klar, sind auch nur 2^32. sind wir mal großzügig, da viele davon ja gar nicht öffentlich zugänglich sind und man diese ausschließen kann, und machen nur 2^31 draus. sind wir weiterhin so großzügig und gönnen dem crawler 2 sekunden spass mit jeder seite. dann braucht er nur knapp 35 jahre, um sich alle IPs mal angeguckt zu haben.

    Hm, und wenn, sagen wir 2 crawler im Einsatz sind?
    Dann müsste das ganze ja nur noch 17,5 Jahre dauern... ok, machen wir vier, nein acht, besser 300 crawler daraus. Cool, dann ist die Sache in nem knappen Monat erledigt 😉 :p



  • Unix-Tom schrieb:

    Nix IP`s.
    Unter einer IP kann es tausende Domains und Subdomains geben welche wiederum tausende Seiten haben.

    👍 zudem gibt es auch einfach nur seiten zu denen von den domains/subdomains keine verlinkung gibt.



  • google verfügt auch über riesenserver mit riesigen datenbänken.
    die inhalte der webseiten werden von den crawlern thematisch indexiert und zu jeder seite existiert ein stichwortkatalog.
    darum funktioniert auch sowas: Ergebnisse 1 - 10 von ungefähr 69.200.000 für porno. (0,03 Sekunden)

    würden die crawler erst bei einer suchanfrage bei google anfangen im web zu suchen, könnte man u.U. tatsächlich ein paar monate warten, bis man 69.200.000 seiten verfügbar hätte. so dauert das nicht einmal eine zehntel sekunde



  • darthdespotism schrieb:

    a) Gibt es eine möglichkeit google zu sagen "Indexir mal meine Site" (google.com/webmasters ?)

    ich erinnere mich mal dran, im rahmen eines total unspektakulären praktikum ich glaube mit hilfe von python so etwas gemacht zu haben. google bietet so eine möglichkeit an, dass man den website-verzeichnisbaum bereitstellt und es dann angeblich schneller gehen soll, dass er alle ebenen der site erfasst. falls es das ist was du meinst.


Anmelden zum Antworten