RSS Feed abonnieren

Mag blog.de YaCy nicht?

18. August 2009

Das Crawlen von blog.de und dessen Subdomains (die einzelnen Blogs) ist mit YaCy aktuell nicht möglich. In der robots.txt ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück.

Testen kann man dies recht einfach, indem man den Browser mal eben wie YaCy aussehen läßt, dank Anleitung für Firefox und einer Liste möglicher YaCy User-Agents kein Problem. Mal ganz abgesehen von einer Trafficbegrenzung je IP, die auf den Seiten von blog.de zuschlägt sobald man ein bestimmtes Limit an Seitenaufrufen je Zeiteinheit überschritten hat (z.B. durch Crawlen).

Tags: ,

Eine Antwort zu “Mag blog.de YaCy nicht?”

  1. David
    19. August 2009 um 15:00 Uhr

    Komisches Verhalten. Bei mir hat der Test mit dem User-Agent vom Browser erst geblockt, nachdem ich YaCy angewiesen habe blog.de zu crawlen (was es nicht konnte).
    Wenn genauere Erkenntnisse vorliegen, vielleicht mal im Forum melden.

Kommentar?

Hinweise zum Datenschutz siehe Impressum

*

tempo@deruwe.de jl@deruwe.de