derUwe.de ist eine private Seite |
Impressum
erzeugt mit Wordpress |
benutzt ein modifiziertes Snowblind Theme
Kategorie 'YaCy'
YaCy und myblog.de
Mein YaCy Peer crawlt gerade die Blogs auf myblog.de. Die Seiten lassen sich gut crawlen und die Server scheinen verdammt fix. Bis zu 2200 PPM (pages per minute) konnte ich beobachten.
Weiterlesen »Die 38463 besten Blogs auf wordpress.com?
Die Crawls auf wordpress.com sind abgeschlossen. Sicherlich wurde nur ein Bruchteil aller Domains erfaßt. Eine Domain entspricht jeweils einem Blog. Da der Crawler von Link zu Link wandert und dementsprechend nur verlinkte Blogs fand, nehme ich an diese 38463 Blogs gehören zu den aktivsten bzw. attraktivsten die auf wordpress.com gehostet werden. Sonst hätte sie niemand verlinkt.
Weiterlesen »YaCy & die Blogs von wordpress.com – 5 Stunden später
0 KommentareYaCy crawlt gerade Blogs auf de.wordpress.com
Meinem YaCy Peer hab ich eine schöne Aufgabe zugewiesen: Das Crawlen von de.wordpress.com mit den einzelnen Blogs. Jeweils 100 Seiten je (Sub-) Domain (also Blog) werden gecrawlt, beschränkt auf *.wordpress.com und keine Beiträge vor 2009 (sofern die Archiv-Struktur dies hergibt)
Nach wenigen Minuten hatte der Crawler gut zu tun, sprang von Seite zu Seite und erfaßte diese mit einer Geschwindigkeit von bis zu 1065 PPM (pages per minute).
Weiterlesen »Mag blog.de YaCy nicht?
Das Crawlen von blog.de und dessen Subdomains (die einzelnen Blogs) ist mit YaCy aktuell nicht möglich. In der robots.txt ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück.
Weiterlesen »