derUwe.de ist eine private Seite |
Impressum
erzeugt mit Wordpress |
benutzt ein modifiziertes Snowblind Theme
Das Crawlen von blog.de und dessen Subdomains (die einzelnen Blogs) ist mit YaCy aktuell nicht möglich. In der robots.txt ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück.
Testen kann man dies recht einfach, indem man den Browser mal eben wie YaCy aussehen läßt, dank Anleitung für Firefox und einer Liste möglicher YaCy User-Agents kein Problem. Mal ganz abgesehen von einer Trafficbegrenzung je IP, die auf den Seiten von blog.de zuschlägt sobald man ein bestimmtes Limit an Seitenaufrufen je Zeiteinheit überschritten hat (z.B. durch Crawlen).

19. August 2009 um 15:00
Komisches Verhalten. Bei mir hat der Test mit dem User-Agent vom Browser erst geblockt, nachdem ich YaCy angewiesen habe blog.de zu crawlen (was es nicht konnte).
Wenn genauere Erkenntnisse vorliegen, vielleicht mal im Forum melden.