RSS Feed abonnieren

YaCy crawlt gerade Blogs auf de.wordpress.com

19. August 2009

Meinem YaCy Peer hab ich eine schöne Aufgabe zugewiesen: Das Crawlen von de.wordpress.com mit den einzelnen Blogs. Jeweils 100 Seiten je (Sub-) Domain (also Blog) werden gecrawlt, beschränkt auf *.wordpress.com und keine Beiträge vor 2009 (sofern die Archiv-Struktur dies hergibt)

Nach wenigen Minuten hatte der Crawler gut zu tun, sprang von Seite zu Seite und erfaßte diese mit einer Geschwindigkeit von bis zu 1065 PPM (pages per minute).

YaCy crawlt Blogs auf wordpress.com mit bis zu 1065 PPM

Unerklärlich ist mir warum dies nach ca. 20-30. Minuten einbrach und der Crawler auf unter 50 PPM fiel. Auch sonst folgte der Performance Graph plötzlich nicht mehr den von mir erwarteten Werten.

Einbruch der PPM nach wenigen Minuten

Nichts desto trotz entstand noch diese sehr schöne Grafik der Link-Topologie. Wie man sieht hat YaCy bisher nur einen kleinen Teil der Blogs besucht (die Ballung unten links) und deren Beziehung zueinander dargestellt. Ein schönes Spielzeug für solche die das Netz nach Neuem oder Interessantem durchstöbern.

Link-Topologie der gecrawlten (Sub-) Domains

Diese Grafik gibt es auch noch in besonders großer Auflösung.

Nachfolgend ein von mir spontan zusammengestellter Auszug der erfaßten Seiten (diese geben nicht unbedingt meine Meinung wieder), in unsortierter Reihenfolge, als Beispiele was man alles entdecken kann.

Wer sich die Mühe machen möchte alle dargestellten Domains abzutippen, ich nehm die Liste gern.

(Bildquellen: eigener YaCy Client)

Tags: ,

Kommentar?

Hinweise zum Datenschutz siehe Impressum

*

tempo@deruwe.de jl@deruwe.de