V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tuuuz
V2EX  ›  PHP

一个网站爬下来的 html 代码居然和页面不一样

  •  
  •   tuuuz · 2015-10-23 17:54:25 +08:00 · 3782 次点击
    这是一个创建于 3321 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这两天在写爬虫 发现一个奇怪的问题
    http://sinacn.weibodangan.com/user/5208916795/?max_id=3900715476612486

    这个页面进去应该是

    对不起,你所查看的微博用户暂时找不到,返回上一页,或者去看看其他微博。 error_code:0
    

    上面这个是正确的

    但是我用 php 的 file_get_content 获取的页面则是

    用户 4813861174 转发的微博等等
    

    这个是该网站的防爬策略吗?

    4 条回复    2015-10-24 09:48:54 +08:00
    domty
        1
    domty  
       2015-10-23 17:57:38 +08:00   ❤️ 1
    你进去看的的是 ajax 生成的
    你的爬虫可能只抓取了原始页面
    alexinit
        2
    alexinit  
       2015-10-23 18:00:46 +08:00   ❤️ 1
    爬虫爬得是原始页面,你看到的是解析过的.
    ericls
        3
    ericls  
       2015-10-24 02:43:52 +08:00   ❤️ 1
    你先看看请求是什么 而不是看 url 是什么
    cheng007
        4
    cheng007  
       2015-10-24 09:48:54 +08:00   ❤️ 1
    你的爬虫不会解析执行 JS ,修改 DOM 数据
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3321 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:30 · PVG 20:30 · LAX 04:30 · JFK 07:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.