V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
undeflife
V2EX  ›  问与答

百度总是这么不要脸吗?

  •  
  •   undeflife · 2015-07-06 11:08:01 +08:00 · 3642 次点击
    这是一个创建于 3429 天前的主题,其中的信息可能已经有所发展或是发生改变。

    robots.txt里限制了爬虫的时间段和频次,百度不管不顾

    sudo cat access.log |grep 'http://www.baidu.com/search/spider.html' | awk '{print $1}' | awk -F'.' '{print $1"."$2"."$3"."$4}'

    一早上 5个ip段 300多ip死劲爬啊 - -

    123.125.71.0
    220.181.108.0
    180.76.15.0
    220.181.38.0
    183.60.243.0

    列举部分IP

    220.181.108.103
    220.181.108.107
    220.181.108.97
    220.181.108.85
    220.181.108.120
    220.181.108.102
    220.181.108.87
    220.181.108.83
    220.181.108.77
    220.181.108.93
    220.181.108.109
    220.181.108.90
    220.181.108.119
    220.181.108.81
    220.181.108.104
    220.181.108.91
    220.181.108.114
    220.181.108.99
    220.181.108.108
    220.181.108.92
    220.181.108.101
    123.125.71.91
    123.125.71.81
    123.125.71.110
    123.125.71.115
    123.125.71.107
    123.125.71.108
    123.125.71.96
    123.125.71.80
    123.125.71.94
    123.125.71.89
    123.125.71.95
    123.125.71.98
    123.125.71.111
    123.125.71.101
    123.125.71.88
    123.125.71.103
    123.125.71.97
    123.125.71.113
    180.76.15.149
    180.76.15.137
    180.76.15.159
    180.76.15.140
    180.76.15.150
    180.76.15.136
    180.76.15.155
    180.76.15.152
    180.76.15.160
    180.76.15.163
    180.76.15.157
    180.76.15.158
    180.76.15.134
    180.76.15.161
    180.76.15.151
    180.76.15.142
    180.76.15.145

    26 条回复    2015-07-07 04:06:53 +08:00
    tabris17
        1
    tabris17  
       2015-07-06 11:11:21 +08:00
    robots.txt是西方的价值观,不符合中国国情(虽然百度自己也写了一个 http://www.baidu.com/robots.txt)

    试试看站长工具呗
    9hills
        2
    9hills  
       2015-07-06 11:11:39 +08:00
    User-agent: Baiduspider
    Disallow: /

    User-agent: baiduspider
    Disallow: /
    laoertongzhi
        3
    laoertongzhi  
       2015-07-06 11:18:15 +08:00
    百度有脸吗?

    我怎么不晓得
    lonelygo
        4
    lonelygo  
       2015-07-06 11:29:19 +08:00
    脸是什么?baidu问你呢
    zent00
        5
    zent00  
       2015-07-06 11:33:27 +08:00
    有些事大家知道就好,不用讲出来,楼上几位这么说百度,小心有洗地的人来骂你们是喷子。
    yakczh
        6
    yakczh  
       2015-07-06 11:40:49 +08:00   ❤️ 1
    A 用户做个A网站
    莆田民营医院花100块钱买了A的关键字,用户在百毒搜A,搜出来一大堆狗皮膏药的广告
    A 用户觉得这好象有点不大对劲,问百毒这到底咋回事
    百毒说这是我的盈利模式,你花200块钱把关键字买回去就搜索结果就导向你的网站了 莆田医院再花300买回去,你再花400买回来,这就是传说中的市场经济啊,我等着数钱啊
    你问百毒,你要脸吗?
    百毒:我要钱啊,给钱啊,我已经叉开双腿了,给钱来上我啊,come'on baby
    laucie
        7
    laucie  
       2015-07-06 11:43:49 +08:00
    @yakczh 生动啊 有图就更好了
    yakczh
        8
    yakczh  
       2015-07-06 11:44:20 +08:00
    象google这种笨蛋就不会搞市场经济赚钱
    vbs
        9
    vbs  
       2015-07-06 11:48:30 +08:00
    楼主能贴下robots.txt吗
    undeflife
        10
    undeflife  
    OP
       2015-07-06 11:58:19 +08:00
    @tabris17 我知道百度站长上可以设频次,但是我没试过,不太乐意为了这个去注册账号什么的,问题是不管怎么样,300多ip同时来这像话吗?
    Hello1995
        11
    Hello1995  
       2015-07-06 12:25:19 +08:00 via Android
    楼主可以尝试把 UA 里带有 "baidu" 字样的全给屏蔽了。
    df4VW
        12
    df4VW  
       2015-07-06 12:31:57 +08:00
    mliilm
        13
    mliilm  
       2015-07-06 12:51:03 +08:00
    robots.txt 里设置的爬虫的时间段和频次百度应该是不认的.
    但是 disallow 百度是严格遵守的. 可以把你觉得不重要的给 disallow 掉.

    300多个 IP 同时来算什么, 几千个几万个的都有. 尤其最近百度升级了 spider, 开始支持 JS 了, 有时候触发的 JS 有问题的话, 同时并发的可就更多了. 百度暂时根本控制不住这些.

    最好的办法就是站长工具里控制下频率. 或者干脆 disallow 掉.
    如果还是不行的话, 那就升级服务器吧.
    cst4you
        14
    cst4you  
       2015-07-06 12:59:04 +08:00   ❤️ 2
    nginx 里禁止 Baiduspider 即可, 你可以302回baidu.com, 百度判断你作弊, 立即拔你毛, 这样永远就不会受它骚扰了
    suikator
        15
    suikator  
       2015-07-06 13:02:49 +08:00 via Android
    @cst4you 不要这么机制
    undeflife
        16
    undeflife  
    OP
       2015-07-06 13:05:44 +08:00
    @mliilm 是我少见多怪了啊?那请问下是出于什么样目的会几千个几万ip同时爬呢?google遵守了我们robots.txt设置的爬虫的时间段和频次,每次也就几个ip而已,收录的网页数却比百度要多了一倍.
    cst4you
        17
    cst4you  
       2015-07-06 13:31:33 +08:00
    @suikator 谢谢你
    iyaozhen
        18
    iyaozhen  
       2015-07-06 13:41:38 +08:00
    百度应该是不支持时间段和频次的。
    lyragosa
        19
    lyragosa  
       2015-07-06 13:44:49 +08:00
    ban掉即可。
    predator
        20
    predator  
       2015-07-06 15:31:18 +08:00
    不知道得罪了谁,一个月给我刷了4000万外链
    然后才发现……正常内容百度不上心的,垃圾外链爬得可起劲了,最高峰的时候网站流量70%+是被百度消耗掉了
    liujiantao
        21
    liujiantao  
       2015-07-06 15:36:34 +08:00
    百度站长工具可以自定义的吧好像
    mornlight
        22
    mornlight  
       2015-07-06 15:58:44 +08:00
    搜索引擎更新网站的robots.txt 需要一段时间,不是立即生效的。
    mliilm
        23
    mliilm  
       2015-07-06 19:35:12 +08:00 via Android
    @undeflife 百度技术不行呗,Google的爬虫比百度的智能了不止一个数量级
    wtdd
        24
    wtdd  
       2015-07-06 20:03:50 +08:00
    话说认识两个哥们儿去了百度数年后,人品从中等水平逐渐进入不厚道水平了,技术进步相对不大,嘴上忽悠水平明显见涨
    cxshun
        25
    cxshun  
       2015-07-06 20:07:56 +08:00
    @wtdd 这简直牛叉,看来百毒为我们中华民族的教育事业做出了自己应有的『贡献』,真感谢他们祖宗十八代。
    laiyingdong
        26
    laiyingdong  
       2015-07-07 04:06:53 +08:00 via Android
    百度懒得管这么长的玩意 除非你是淘宝
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2645 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:34 · PVG 13:34 · LAX 21:34 · JFK 00:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.