关于Google爬虫的一点猜想
在Wordpress后台爬虫日志中看到Google爬虫的user agent信息为“Mozilla/5.0 (en-us) AppleWebKit/525.13 (KHTML, like Gecko; Google Web Preview) Version/3.1 Safari/525.13”,可以大胆的猜想,Google使用了一个基于WebKit核心的爬虫,这个爬虫具有生成网页预览功能,并且能生成预览图片,这就是我们能够在Google搜索结果中预览网页图片的原因。
传说中,Google爬虫能够执行JavaScript,如果真的是使用了一个WebKit浏览器核心的爬虫,做到这一点是毫不足怪的。另外,也可以设想,通过这么一个基于浏览器的爬虫,Google会具备更高级的反作弊功能,因为它已经和普通浏览器毫无二致了,一般的隐藏文字之类的手段对它一点效果都没有。
下面是Google Privew的效果,你感觉它生成的预览图和浏览器中看到的实际效果有什么差别吗?