一个网站爬下来的 html 代码居然和页面不一样

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3360 天前的主题，其中的信息可能已经有所发展或是发生改变。

这个页面进去应该是

对不起，你所查看的微博用户暂时找不到，返回上一页，或者去看看其他微博。 error_code:0

上面这个是正确的

但是我用 php 的 file_get_content 获取的页面则是

用户 4813861174 转发的微博等等

这个是该网站的防爬策略吗？

4 条回复 • 2015-10-24 09:48:54 +08:00

domty

2015-10-23 17:57:38 +08:00

你进去看的的是 ajax 生成的
你的爬虫可能只抓取了原始页面

alexinit

2015-10-23 18:00:46 +08:00

爬虫爬得是原始页面,你看到的是解析过的.

ericls

2015-10-24 02:43:52 +08:00

你先看看请求是什么而不是看 url 是什么

cheng007

2015-10-24 09:48:54 +08:00

你的爬虫不会解析执行 JS ，修改 DOM 数据