RSS Feed abonnieren

Kreative Mitarbeitersuche

20. August 2009

Wordpress.com betreibt eine sehr kreative Mitarbeitersuche. Schaut man sich den vom Server zurückgelieferten Header an findet man darin eine URL mit weiterführenden Informationen:

“X-hacker: If you’re reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.”

Weiterlesen »
0 Kommentare

YaCy & die Blogs von wordpress.com – 5 Stunden später

19. August 2009

Ca. 4-5 Stunden nach meinen ersten Artikel zum Thema werkelt der YaCy Crawler immernoch fleißig vor sich hin und das Bild zur Link-Topologie hat sich in der Zwischenzeit deutlich gewandelt. Aber seht selbst.

Weiterlesen »
0 Kommentare

YaCy crawlt gerade Blogs auf de.wordpress.com

19. August 2009

Meinem YaCy Peer hab ich eine schöne Aufgabe zugewiesen: Das Crawlen von de.wordpress.com mit den einzelnen Blogs. Jeweils 100 Seiten je (Sub-) Domain (also Blog) werden gecrawlt, beschränkt auf *.wordpress.com und keine Beiträge vor 2009 (sofern die Archiv-Struktur dies hergibt)

Nach wenigen Minuten hatte der Crawler gut zu tun, sprang von Seite zu Seite und erfaßte diese mit einer Geschwindigkeit von bis zu 1065 PPM (pages per minute).

YaCy crawlt Blogs auf wordpress.com mit bis zu 1065 PPM

Weiterlesen »
0 Kommentare

Geheimtipp an alle Webdesigner ;)

19. August 2009

Ich habe mal in meiner Linksammlung gewühlt und möchte an dieser Stelle zwei Seiten besonders erwähnen. Die muss jeder Webdesigner kennen! Zum einen ist das www.karl-fritsch.de und zum anderen www.frnz.de. Beide Seiten haben ein einmaliges und unvergeßliches Design und kann man schlechthin als Klassiker bezeichnen.

Weiterlesen »
1 Kommentar

Kannst du Deutsch?

18. August 2009

Ich bin gerade zufällig auf eine Seite gestoßen mit Lektionen zum Deutsch lernen. Da kann man sich zum Beispiel alles über die Urlaubsreise der Familie Kothe anhören. Irgendwie witzig – aber auch interessant Deutsch mal aus der anderen Perspektive zu erleben.

Weiterlesen »
0 Kommentare

Mag blog.de YaCy nicht?

18. August 2009

Das Crawlen von blog.de und dessen Subdomains (die einzelnen Blogs) ist mit YaCy aktuell nicht möglich. In der robots.txt ist zwar kein Eintrag zu YaCy zu finden, allerdings wird jeder User-Agent der nach YaCy aussieht recht hart (vermutlich per Rewrite-Rules) geblockt. Man bekommt dann statt der Seite einen HTTP Fehler 500 zurück.

Weiterlesen »
1 Kommentar

robots.txt direkt in Wordpress pflegen

17. August 2009

Ich hatte eine neue Seite angelegt und wollte diese in die robots.txt eintragen, da sie nicht indiziert werden soll. Hat man allerdings im Moment keine direkte Zugriffsmöglichkeit auf die Maschine (ftp/ssh/..) sieht es schlecht aus. Ein einfacher, aber wirklungsvoller, Trick macht es mir für die Zukunft möglich die robots.txt direkt in Wordpress zu bearbeiten.

Weiterlesen »
0 Kommentare

Code in Wordpress einfügen

17. August 2009

Ich hatte für meinen Neustart mit Wordpress einige alte Inhalte einzupflegen. Diese enthalten jede Menge Code-Beispiele und ich mußte mit Entsetzen feststellen Wordpress macht es einem da nicht leicht. Also ran ans Werk und eine Lösung gesucht. Eine für mich akzeptable habe ich auch gefunden.

Weiterlesen »
0 Kommentare