derUwe.de ist eine private Seite |
Impressum
erzeugt mit Wordpress |
benutzt ein modifiziertes Snowblind Theme
Archiv für August 2009
Die 38463 besten Blogs auf wordpress.com?
Die Crawls auf wordpress.com sind abgeschlossen. Sicherlich wurde nur ein Bruchteil aller Domains erfaßt. Eine Domain entspricht jeweils einem Blog. Da der Crawler von Link zu Link wandert und dementsprechend nur verlinkte Blogs fand, nehme ich an diese 38463 Blogs gehören zu den aktivsten bzw. attraktivsten die auf wordpress.com gehostet werden. Sonst hätte sie niemand verlinkt.
Weiterlesen »Wenn die USB Festplatte nicht will …
… kann es an der Spannungsversorgung liegen. Ich hatte zur Datensicherung eben eine ältere Notebookfestplatte in mein USB Gehäuse eingebaut, am Rechner angesteckt und es passierte nicht viel. Linux erkannte zwar die Platte, konnte aber keine Partitionen darauf finden.
Weiterlesen »Nachrichten aus StudiVZ exportieren
Ich suchte letztens eine Möglichkeit eine Menge Nachrichten aus StudiVZ zu exportieren um sie mir zu archivieren. Ich habe eine recht praktische Möglichkeit gefunden.
Weiterlesen »Kreative Mitarbeitersuche
WordPress.com betreibt eine sehr kreative Mitarbeitersuche. Schaut man sich den vom Server zurückgelieferten Header an findet man darin eine URL mit weiterführenden Informationen:
“X-hacker: If you’re reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.”
Weiterlesen »YaCy & die Blogs von wordpress.com – 5 Stunden später
0 KommentareYaCy crawlt gerade Blogs auf de.wordpress.com
Meinem YaCy Peer hab ich eine schöne Aufgabe zugewiesen: Das Crawlen von de.wordpress.com mit den einzelnen Blogs. Jeweils 100 Seiten je (Sub-) Domain (also Blog) werden gecrawlt, beschränkt auf *.wordpress.com und keine Beiträge vor 2009 (sofern die Archiv-Struktur dies hergibt)
Nach wenigen Minuten hatte der Crawler gut zu tun, sprang von Seite zu Seite und erfaßte diese mit einer Geschwindigkeit von bis zu 1065 PPM (pages per minute).
Weiterlesen »Geheimtipp an alle Webdesigner ;)
Ich habe mal in meiner Linksammlung gewühlt und möchte an dieser Stelle zwei Seiten besonders erwähnen. Die muss jeder Webdesigner kennen! Zum einen ist das www.karl-fritsch.de und zum anderen www.frnz.de. Beide Seiten haben ein einmaliges und unvergeßliches Design und kann man schlechthin als Klassiker bezeichnen.
Weiterlesen »Kannst du Deutsch?
Ich bin gerade zufällig auf eine Seite gestoßen mit Lektionen zum Deutsch lernen. Da kann man sich zum Beispiel alles über die Urlaubsreise der Familie Kothe anhören. Irgendwie witzig – aber auch interessant Deutsch mal aus der anderen Perspektive zu erleben.
Weiterlesen »Mag blog.de YaCy nicht?
Das Crawlen von blog.de und dessen Subdomains (die einzelnen Blogs) ist mit YaCy aktuell nicht möglich. In der robots.txt ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück.
Weiterlesen »robots.txt direkt in WordPress pflegen
Ich hatte eine neue Seite angelegt und wollte diese in die robots.txt eintragen, da sie nicht indiziert werden soll. Hat man allerdings im Moment keine direkte Zugriffsmöglichkeit auf die Maschine (ftp/ssh/..) sieht es schlecht aus. Ein einfacher, aber wirklungsvoller, Trick macht es mir für die Zukunft möglich die robots.txt direkt in WordPress zu bearbeiten.
Weiterlesen »