1
lichao 2013-04-08 18:13:18 +08:00
蜘蛛只抓取 HTML,图片以及,CSS, JavaScript 抓取了也没有用,所以不抓
|
2
soho176 OP @lichao 但是为什么在日志中看不到 图片请求的日志,只有网址的请求日志,这个网址上是有图片的,对这个网址进行了访问 按说应该图片也要产生请求的啊,难道是 蜘蛛的请求只返回html 代码,不返回其他的吗?
|
4
cloudzhou 2013-04-08 21:49:31 +08:00 1
@soho176 你要理解http协议,比如使用 curl ,wget 来获取页面,那么不会访问页面上的js和img的
|
5
likexian 2013-04-08 23:08:59 +08:00 1
一般来说蜘蛛只读页面html,不读引用的其它文件,但google soso这些蜘蛛都会读css
|
6
dorentus 2013-04-09 01:20:47 +08:00
其实浏览器的话,假如我把样式和脚步都禁掉,然后访问你的页面,也是不会去下载 HTML 里面外链的 CSS 和 Javascript 等资源的。
最基本的搜索引擎蜘蛛,一般就是抓取下页面(HTML),简单解析一下,找出里面的到其它页面的链接,然后再去抓这些页面(HTML),如此反复。 至于 Google bot,假如我没记错的话(某年应该有个新闻提到的),现在它应该甚至都会去把 JS 抓下来执行一下,以更好地分析某些前端脚本比较复杂的页面。。。 |
7
dorentus 2013-04-09 01:24:47 +08:00 1
说到图片蜘蛛,它的抓取时机并不一定和网页的蜘蛛同步的。
比如 google bot 抓取了你的一个页面,发现里面有几张图片,它应该会把这些图片记为要抓取的,告知 google image bot,然后 google image bot 会在自己觉得合适的时机去抓取这些图片(假如它认为你的页面优先级不高,甚至会很长时间都不去抓)。 这样应该可以解释为什么你只在日志里面集中看到了网页被抓取了,而图片没有。 |