<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>derUwe.de &#187; Blogs</title>
	<atom:link href="http://deruwe.de/tag/blogs/feed" rel="self" type="application/rss+xml" />
	<link>http://deruwe.de</link>
	<description>mein Streifzug durchs Web</description>
	<lastBuildDate>Sat, 26 Jun 2010 10:45:28 +0000</lastBuildDate>
	<language>de</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>YaCy und myblog.de</title>
		<link>http://deruwe.de/2009/09/yacy-und-myblog-de.html</link>
		<comments>http://deruwe.de/2009/09/yacy-und-myblog-de.html#comments</comments>
		<pubDate>Sun, 06 Sep 2009 16:43:33 +0000</pubDate>
		<dc:creator>Uwe</dc:creator>
				<category><![CDATA[YaCy]]></category>
		<category><![CDATA[Blogs]]></category>

		<guid isPermaLink="false">http://deruwe.de/?p=387</guid>
		<description><![CDATA[Mein YaCy Peer crawlt gerade die Blogs auf myblog.de. Die Seiten lassen sich gut crawlen und die Server scheinen verdammt fix. Bis zu 2200 PPM (pages per minute) konnte ich beobachten. Insgesamt macht myblog.de einen recht guten ersten Eindruck auf mich &#8211; nicht nur aufgrund der Performence, auch lassen sich einzelne Blogs per Passwort schützen, [...]]]></description>
			<content:encoded><![CDATA[<p>Mein <a href="http://yacy.net">YaCy</a> Peer crawlt gerade die Blogs auf <a href="http://www.myblog.de/">myblog.de</a>. Die Seiten lassen sich gut crawlen und die Server scheinen verdammt fix. Bis zu 2200 PPM (pages per minute) konnte ich beobachten. </p>
<div id="attachment_388" class="wp-caption aligncenter" style="width: 310px"><a href="http://deruwe.de/dateien/2009/09/crawling_myblog.de.png"><img src="http://deruwe.de/dateien/2009/09/crawling_myblog.de-300x109.png" alt="Bis zu 2200 PPM auf myblog.de" title="crawling_myblog.de" width="300" height="109" class="size-medium wp-image-388" /></a><p class="wp-caption-text">Bis zu 2200 PPM auf myblog.de</p></div>
<p><span id="more-387"></span></p>
<p>Insgesamt macht myblog.de einen recht guten ersten Eindruck auf mich &#8211; nicht nur aufgrund der Performence, auch lassen sich einzelne Blogs per Passwort schützen, dass nur ausgewählte Personen diese lesen können.</p>
]]></content:encoded>
			<wfw:commentRss>http://deruwe.de/2009/09/yacy-und-myblog-de.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Die 38463 besten Blogs auf wordpress.com?</title>
		<link>http://deruwe.de/2009/08/die-38463-besten-blogs-auf-wordpress-com.html</link>
		<comments>http://deruwe.de/2009/08/die-38463-besten-blogs-auf-wordpress-com.html#comments</comments>
		<pubDate>Sun, 23 Aug 2009 19:52:38 +0000</pubDate>
		<dc:creator>Uwe</dc:creator>
				<category><![CDATA[YaCy]]></category>
		<category><![CDATA[Blogs]]></category>

		<guid isPermaLink="false">http://deruwe.de/?p=245</guid>
		<description><![CDATA[Die Crawls auf wordpress.com sind abgeschlossen. Sicherlich wurde nur ein Bruchteil aller Domains erfaßt. Eine Domain entspricht jeweils einem Blog. Da der Crawler von Link zu Link wandert und dementsprechend nur verlinkte Blogs fand, nehme ich an diese 38463 Blogs gehören zu den aktivsten bzw. attraktivsten die auf wordpress.com gehostet werden. Sonst hätte sie niemand [...]]]></description>
			<content:encoded><![CDATA[<p>Die <a href="http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com.html">Crawls auf wordpress.com</a> sind abgeschlossen. Sicherlich wurde nur ein Bruchteil aller Domains erfaßt. Eine Domain entspricht jeweils einem Blog. Da der Crawler von Link zu Link wandert und dementsprechend nur verlinkte Blogs fand, nehme ich an diese 38463 Blogs gehören zu den aktivsten bzw. attraktivsten die auf wordpress.com gehostet werden. Sonst hätte sie niemand verlinkt.</p>
<div id="attachment_343" class="wp-caption aligncenter" style="width: 310px"><a href="http://deruwe.de/dateien/2009/08/yacy_webstruktur_wordpress.com.png"><img src="http://deruwe.de/dateien/2009/08/yacy_webstruktur_wordpress.com-300x225.png" alt="Teil der Linktopologie um de.wordpress.com" title="yacy_webstruktur_wordpress.com" width="300" height="225" class="size-medium wp-image-343" /></a><p class="wp-caption-text">Teil der Linktopologie um de.wordpress.com</p></div>
<p><span id="more-245"></span></p>
<h2>Die Liste</h2>
<p><strong>Hinweis</strong>: Diese Linkliste kam durch einen Crawler zustande und dient rein statistischen, technischen bzw. wissenschaftlichen Zwecken. Ich habe keine Kenntnis von Inhalten auf diesen Seiten. Die verlinkten Inhalte geben nicht meine Meinung wieder. Aufgrund der Menge der Daten war es mir nur stichprobenartig möglich diese auf womögliche illegale Inhalte zu überprüfen. Sollte jemand illegale Inhalte entdecken, bitte Nachricht an mich und ich werde den Link sofort entfernen.</p>
<ul>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_0_9.html">0-9 (311 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_a.html">A (3032 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_b.html">B (93 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_c.html">C (2336 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_d.html">D (1996 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_e.html">E (1402 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_f.html">F (1525 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_g.html">G (1310 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_h.html">H (1153 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_i.html">I (1266 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_j.html">J (1098 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_k.html">K (1262 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_l.html">L (1928 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_m.html">M (3124 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_n.html">N (1278 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_o.html">O (760 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_p.html">P (2057 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_q.html">Q (139 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_r.html">R (1595 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_s.html">S (3540 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_t.html">T (2581 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_u.html">U (444 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_v.html">V (662 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_w.html">W (2841 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_x.html">X (99 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_y.html">Y (316 Domains)</a></li>
<li><a href="http://deruwe.de/wordpress_com_august_2009_liste_z.html">Z (314 Domains)</a></li>
</ul>
<h2>Liste als Textdatei</h2>
<ul>
<li><a href="http://deruwe.de/dateien/2009/08/linkliste.txt">Download Textdatei</a></li>
</ul>
<h2>Linktopologie</h2>
<p>Auch gibt es noch <a href="http://deruwe.de/dateien/2009/08/yacy_webstruktur_wordpress.com_gross.png">ein extragroßes Bild</a> der Linktopologie zum Download.</p>
<p><strong>Vorsicht</strong>, das Bild ist 8000&#215;8000 Pixel. Bei einem nicht leistungsfähigem Rechner kann beim Aufruf der Browser abstürzen.</p>
]]></content:encoded>
			<wfw:commentRss>http://deruwe.de/2009/08/die-38463-besten-blogs-auf-wordpress-com.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>YaCy &amp;  die Blogs von wordpress.com &#8211; 5 Stunden später</title>
		<link>http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com-teil-2.html</link>
		<comments>http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com-teil-2.html#comments</comments>
		<pubDate>Wed, 19 Aug 2009 16:31:45 +0000</pubDate>
		<dc:creator>Uwe</dc:creator>
				<category><![CDATA[YaCy]]></category>
		<category><![CDATA[Blogs]]></category>

		<guid isPermaLink="false">http://deruwe.de/?p=184</guid>
		<description><![CDATA[Ca. 4-5 Stunden]]></description>
			<content:encoded><![CDATA[<p>Ca. 4-5 Stunden <a href="<?php echo get_permalink(163); ?>&#8220;>nach meinen ersten Artikel zum Thema</a> werkelt der <a href="http://yacy.net">YaCy</a> Crawler immernoch fleißig vor sich hin und das Bild zur Link-Topologie hat sich in der Zwischenzeit  deutlich gewandelt. Aber seht selbst.</p>
<p><span id="more-184"></span></p>
<p><a href="http://deruwe.de/dateien/2009/08/yacy_webstruktur_de.wordpress.com_5h.png"><img src="http://deruwe.de/dateien/2009/08/yacy_webstruktur_de.wordpress.com_5h-300x225.png" alt="Link Topologie ausgehend von de.wordpress.com" title="Link Topologie ausgehend von de.wordpress.com" width="300" height="225" class="aligncenter size-medium wp-image-182" /></a></p>
<p>Natürlich gibt es auch dieses Mal wieder eine <a href="http://deruwe.de/dateien/2009/08/yacy_webstruktur_de.wordpress.com_5h_gross.png">besonders große Version</a>.</p>
<p>Solche schönen Grafiken lassen das Herz eines &#8220;YaCyaners&#8221; gleich viel höher schlagen. <strong>Wer sich auf der Grafik wiederfindet</strong> und das Umfeld seines Blogs (auf wordpress.com) dargestellt haben möchte, schreibe mir bitte baldmöglichst einen Kommentar &#8211; sofern mir die Daten vorliegen, kein Problem. Besser ist natürlich ihr probierts selber aus.</p>
<p>(Bildquellen: eigener YaCy Client)</p>
]]></content:encoded>
			<wfw:commentRss>http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com-teil-2.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>YaCy crawlt gerade Blogs auf de.wordpress.com</title>
		<link>http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com.html</link>
		<comments>http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com.html#comments</comments>
		<pubDate>Wed, 19 Aug 2009 13:32:32 +0000</pubDate>
		<dc:creator>Uwe</dc:creator>
				<category><![CDATA[YaCy]]></category>
		<category><![CDATA[Blogs]]></category>

		<guid isPermaLink="false">http://deruwe.de/?p=163</guid>
		<description><![CDATA[Meinem YaCy Peer hab ich eine schöne Aufgabe zugewiesen: Das Crawlen von de.wordpress.com mit den einzelnen Blogs. Jeweils 100 Seiten je (Sub-) Domain (also Blog) werden gecrawlt, beschränkt auf *.wordpress.com und keine Beiträge vor 2009 (sofern die Archiv-Struktur dies hergibt) Nach wenigen Minuten hatte der Crawler gut zu tun, sprang von Seite zu Seite und [...]]]></description>
			<content:encoded><![CDATA[<p>Meinem <a href="http://yacy.net">YaCy</a> Peer hab ich eine schöne Aufgabe zugewiesen: Das Crawlen von <a href="http://de.wordpress.com">de.wordpress.com</a> mit den einzelnen Blogs. Jeweils 100 Seiten je (Sub-) Domain (also Blog) werden gecrawlt, beschränkt auf *.wordpress.com und keine Beiträge vor 2009 (sofern die Archiv-Struktur dies hergibt)</p>
<p>Nach wenigen Minuten hatte der Crawler gut zu tun, sprang von Seite zu Seite und erfaßte diese mit einer Geschwindigkeit von bis zu 1065 PPM (pages per minute).</p>
<p><a href="http://deruwe.de/dateien/2009/08/yacy_performance_graph.png"><img src="http://deruwe.de/dateien/2009/08/yacy_performance_graph-300x109.png" alt="YaCy crawlt Blogs auf wordpress.com mit bis zu 1065 PPM" title="YaCy crawlt Blogs auf wordpress.com mit bis zu 1065 PPM" width="300" height="109" class="aligncenter size-medium wp-image-157" /></a></p>
<p><span id="more-163"></span></p>
<p>Unerklärlich ist mir warum dies nach ca. 20-30. Minuten einbrach und der Crawler auf unter 50 PPM fiel. Auch sonst folgte der Performance Graph plötzlich nicht mehr den von mir erwarteten Werten.</p>
<p><a href="http://deruwe.de/dateien/2009/08/yacy_performance_graph_2.png"><img src="http://deruwe.de/dateien/2009/08/yacy_performance_graph_2-300x109.png" alt="Einbruch der PPM nach wenigen Minuten" title="Einbruch der PPM nach wenigen Minuten" width="300" height="109" class="aligncenter size-medium wp-image-161" /></a></p>
<p>Nichts desto trotz entstand noch diese sehr schöne Grafik der Link-Topologie. Wie man sieht hat YaCy bisher nur einen kleinen Teil der Blogs besucht (die Ballung unten links) und deren Beziehung zueinander dargestellt. Ein schönes Spielzeug für solche die das Netz nach Neuem oder Interessantem durchstöbern.</p>
<p><a href="http://deruwe.de/dateien/2009/08/yacy_webstruktur_de.wordpress.com.png"><img src="http://deruwe.de/dateien/2009/08/yacy_webstruktur_de.wordpress.com-300x225.png" alt="Link-Topologie der gecrawlten (Sub-) Domains" title="Link-Topologie der gecrawlten (Sub-) Domains" width="300" height="225" class="aligncenter size-medium wp-image-156" /></a></p>
<p>Diese Grafik gibt es auch noch in <a href="http://deruwe.de/dateien/2009/08/yacy_webstruktur_de.wordpress.com_gross.png">besonders großer Auflösung</a>.</p>
<p>Nachfolgend ein von mir spontan zusammengestellter Auszug der erfaßten Seiten (diese geben nicht unbedingt meine Meinung wieder), in unsortierter Reihenfolge, als Beispiele was man alles entdecken kann.</p>
<ul>
<li><a href="http://zuweiss.wordpress.com">zuweiss.wordpress.com</a></li>
<li><a href="http://unbedingtlesen.wordpress.com">unbedingtlesen.wordpress.com</a></li>
<li><a href="http://kopfspiele.wordpress.com">kopfspiele.wordpress.com</a></li>
<li><a href="http://hellsehenundkartenlegen.wordpress.com">hellsehenundkartenlegen.wordpress.com</a></li>
<li><a href="http://ostseestadion.wordpress.com">ostseestadion.wordpress.com</a></li>
<li><a href="http://johannesarens.wordpress.com">johannesarens.wordpress.com</a></li>
<li><a href="http://hirngabel.wordpress.com">hirngabel.wordpress.com</a></li>
<li><a href="rotegraefin.wordpress.com">rotegraefin.wordpress.com</a></li>
<li><a href="http://dianaschreibt.wordpress.com">dianaschreibt.wordpress.com</a></li>
<li><a href="http://weselpower.wordpress.com">weselpower.wordpress.com</a></li>
<li><a href="http://wortman.wordpress.com">wortman.wordpress.com</a></li>
<li><a href="http://chaosbude.wordpress.com">chaosbude.wordpress.com</a></li>
<li><a href="http://nobsta.wordpress.com">nobsta.wordpress.com</a></li>
<li><a href="http://suboptimales.wordpress.com">suboptimales.wordpress.com</a></li>
<li><a href="http://herrenhauser.wordpress.com">herrenhauser.wordpress.com</a></li>
<li><a href="http://hallojapan.wordpress.com">hallojapan.wordpress.com</a></li>
<li><a href="http://kinderwunsch.wordpress.com">kinderwunsch.wordpress.com</a></li>
<li><a href="http://seishiroa.wordpress.com">seishiroa.wordpress.com</a></li>
<li><a href="http://theolounge.wordpress.com">theolounge.wordpress.com</a></li>
<li><a href="http://reiseweh.wordpress.com">reiseweh.wordpress.com</a></li>
<li><a href="http://cajarore.wordpress.com">cajarore.wordpress.com</a></li>
</ul>
<p>Wer sich die Mühe machen möchte alle dargestellten Domains abzutippen, ich nehm die Liste gern. </p>
<p>(Bildquellen: eigener YaCy Client)</p>
]]></content:encoded>
			<wfw:commentRss>http://deruwe.de/2009/08/yacy-crawlt-gerade-blogs-auf-de-wordpress-com.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Mag blog.de YaCy nicht?</title>
		<link>http://deruwe.de/2009/08/mag-blog-de-yacy-nicht.html</link>
		<comments>http://deruwe.de/2009/08/mag-blog-de-yacy-nicht.html#comments</comments>
		<pubDate>Tue, 18 Aug 2009 08:21:26 +0000</pubDate>
		<dc:creator>Uwe</dc:creator>
				<category><![CDATA[YaCy]]></category>
		<category><![CDATA[Blogs]]></category>

		<guid isPermaLink="false">http://deruwe.de/?p=120</guid>
		<description><![CDATA[Das Crawlen von blog.de und dessen Subdomains (die einzelnen Blogs) ist mit YaCy aktuell nicht möglich. In der robots.txt ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück. Testen kann man [...]]]></description>
			<content:encoded><![CDATA[<p>Das Crawlen von <a href="http://www.blog.de">blog.de</a> und dessen Subdomains (die einzelnen Blogs) ist mit <a href="http://yacy.net">YaCy</a> aktuell nicht möglich. In der <a href="http://www.blog.de/robots.txt">robots.txt</a> ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück. </p>
<p><span id="more-120"></span></p>
<p>Testen kann man dies recht einfach, indem man den Browser mal eben wie YaCy aussehen läßt, dank <a href="http://www.firefox-browser.de/wiki/User_Agent">Anleitung für Firefox</a> und einer <a href="http://www.useragentstring.com/pages/yacy/">Liste möglicher YaCy User-Agents</a> kein Problem. Mal ganz abgesehen von einer Trafficbegrenzung je IP, die auf den Seiten von blog.de zuschlägt sobald man ein bestimmtes Limit an Seitenaufrufen je Zeiteinheit überschritten hat (z.B. durch Crawlen).</p>
]]></content:encoded>
			<wfw:commentRss>http://deruwe.de/2009/08/mag-blog-de-yacy-nicht.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
