V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ihacku
V2EX  ›  分享发现

数字公司搞“分布式爬虫”?

  •  
  •   ihacku · 2012-09-02 14:46:02 +08:00 · 2943 次点击
    这是一个创建于 4494 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最早看到的是7月18号这条推 https://twitter.com/quakewang/status/225773315527176193

    ‏@quakewang
    发现网站日志里面出现了一些奇怪的404错误,以为是代码写错导致用户误点击,结果查了一圈发现是奇虎的爬虫,问题是这些链接是非公开,猜测是用户使用了360浏览器,然后360收集数据供qihoobot去爬,真是太恶心了

    然后是接下来看到百度工程师8月31号的微博 http://weibo.com/2246954235/yzGrucOxV

    接下来这条今天看到的就有点那啥了 http://weibo.com/1378379264/yzV5y1ftw

    公司内部网站(需要vpn+动态口令才能访问)也被360抓了,这是怎么回事
    8 条回复    1970-01-01 08:00:00 +08:00
    skydiver
        1
    skydiver  
       2012-09-02 14:50:03 +08:00
    360只是学的微软而已。微软也通过IE和必应工具栏抓取用户浏览数据 http://www.williamlong.info/archives/2513.html
    Mac
        2
    Mac  
       2012-09-02 16:00:06 +08:00
    @skydiver 两码事,用客户端反馈客户浏览的URL,然后再用蜘蛛抓这个擦边球可以有。但LZ的第二个例子,这不是擦边球的问题了,这完全是用客户端上传网页数据,客户端就是蜘蛛了,这问题就大发了,所有的加密访问都成了摆设了。
    jay_chiu
        3
    jay_chiu  
       2012-09-02 16:07:02 +08:00
    @Mac 没看明白怎么不一样了。应改是一样的,不是客户端上传网页数据,也只是反馈URL,让蜘蛛来抓取。
    ============
    百度联盟的广告是不是很精确,你看过什么页面,他就会有什么广告显示,这是什么原理?
    skydiver
        4
    skydiver  
       2012-09-02 16:07:30 +08:00
    @Mac 刚才没注意第二个例子。不过看了一下,第二个例子还没有得到证实,截图也没有,不清楚抓取的方式。。。等360的回应吧
    CoX
        5
    CoX  
       2012-09-02 16:20:04 +08:00
    第二个微博已经删除了,这是啥情况?
    Mac
        6
    Mac  
       2012-09-02 16:24:12 +08:00
    有意思了,第二条删了,这个就有点那啥了,360的人还回复过这条微博,证实情况存在,在查原因。
    crabhit
        7
    crabhit  
       2012-09-03 10:07:02 +08:00
    @jay_chiu 可能会track你在百度联盟网站的访问记录 挖掘你的兴趣 比如你逛化妆品网站 又逛女装网站 可能会判定你的性别为女性 年龄大概多少 然后给你推荐避孕药广告 这个大部分广告联盟都会这么干的
    qiuai
        8
    qiuai  
       2012-09-03 10:54:11 +08:00
    接下来这条今天看到的就有点那啥了 http://weibo.com/1378379264/yzV5y1ftw

    没看到这条...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4657 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 05:36 · PVG 13:36 · LAX 21:36 · JFK 00:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.