Leggendo i log ho scoperto... #3

... che contrariamente a quanto affermato, BlogBabel sembrerebbe ignorare il file robots.txt. Mentre il bot analizza con regolarità i feed XML, non c'è traccia di alcun download del file robots.txt, anche andando indietro nei log fino ad un anno.

$ zgrep -c -e '/robots\.txt.*?BlogBabel http://it\.blogbabel\.com/' access.log.*
access.log.2008-07-14.gz:0
access.log.2008-07-15.gz:0
access.log.2008-07-16.gz:0
# ... continua
access.log.2008-08-10.gz:0
access.log.2008-08-11.gz:0
access.log.2008-08-12.gz:0

L'accesso al feed è invece regolare.

$ zgrep -e '/blog/index\.xml.*?BlogBabel http://it\.blogbabel\.com/' access.log.*
access.log.2008-07-14.gz:212.35.215.119 - - [14/Jul/2008:02:19:31 -0700] "GET /blog/index.xml HTTP/1.1" 302 546 "-" "BlogBabel +http://it.blogbabel.com/"
access.log.2008-07-14.gz:212.35.215.119 - - [14/Jul/2008:04:19:16 -0700] "GET /blog/index.xml HTTP/1.1" 302 546 "-" "BlogBabel +http://it.blogbabel.com/"
access.log.2008-07-14.gz:212.35.215.119 - - [14/Jul/2008:06:21:23 -0700] "GET /blog/index.xml HTTP/1.1" 302 546 "-" "BlogBabel +http://it.blogbabel.com/"
# ... continua

Anche una ricerca per IP, meno restrittiva, conferma le analisi precedenti.

$ zgrep '212.35.215.119' access.log.* | grep -c 'robots.txt'
0
$ zgrep '212.35.215.119' access.log.* | grep -c 'index.xml'
319

Non avendo motivo di ritenere che quanto affermato sia un bluff, presumo ci possa essere un bug nel bot di Blogbabel.

Simone Carletti 's Blog

Related Posts