V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
awolfly9
V2EX  ›  Python

有豆瓣的同事吗?想请教下豆瓣的反爬策略

  •  
  •   awolfly9 · 2017-02-17 10:48:59 +08:00 · 14799 次点击
    这是一个创建于 2820 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,能否有人剖析下豆瓣的反爬策略

    第 1 条附言  ·  2017-02-17 12:29:57 +08:00
    评论区炸锅了。。。
    第 2 条附言  ·  2017-02-17 12:31:59 +08:00

    我的 IP 应该被加入了豆瓣的黑名单。

    检测到有异常请求从你的 IP 发出,请 登录 使用豆瓣。

    第 3 条附言  ·  2017-02-17 12:39:44 +08:00
    我不是豆瓣员工,标题输入有误。

    我是写了一个代理 IP 工具目前用豆瓣做测试,结果把我自己的原始 IP 封了。
    25 条回复    2017-02-20 11:15:35 +08:00
    knightdf
        1
    knightdf  
       2017-02-17 11:04:15 +08:00
    这能告诉你?
    gimp
        2
    gimp  
       2017-02-17 11:05:44 +08:00
    买海量代理可解决绝大部分反爬问题
    linbiaye
        3
    linbiaye  
       2017-02-17 11:06:33 +08:00
    这是要人吃豆瓣的饭砸豆瓣的锅。
    murmur
        4
    murmur  
       2017-02-17 11:07:53 +08:00
    兄弟这不厚道啊
    wangyifei6817
        5
    wangyifei6817  
       2017-02-17 11:10:40 +08:00
    有法院的同事吗?想请教下现行法律有什么漏洞
    xidianlz
        6
    xidianlz  
       2017-02-17 11:16:58 +08:00
    有福彩中心的同事吗?想请教下下一期中奖号码是多少
    quietcoder
        7
    quietcoder  
       2017-02-17 11:20:57 +08:00
    有监狱的同事吗?想请教一下怎么越狱
    jixiangqd
        8
    jixiangqd  
       2017-02-17 11:54:46 +08:00
    @wangyifei6817
    @xidianlz
    @quietcoder
    都好 6 ,哈哈哈哈
    HGladIator
        9
    HGladIator  
       2017-02-17 11:58:18 +08:00 via iPhone
    有钻石矿井的同事吗?想请教一下怎么哪点儿回家
    expkzb
        10
    expkzb  
       2017-02-17 12:06:33 +08:00
    看标题,楼主应该在豆瓣工作
    phrack
        11
    phrack  
       2017-02-17 12:10:26 +08:00 via Android
    @expkzb 很明显不是
    expkzb
        12
    expkzb  
       2017-02-17 12:13:12 +08:00
    @phrack 所以为什么是“同事”呢?
    yopming
        13
    yopming  
       2017-02-17 12:16:29 +08:00
    我觉得楼主是也要建立反爬机制吧
    lhbc
        14
    lhbc  
       2017-02-17 12:17:24 +08:00 via iPhone
    有银行的同事吗?我想请教下小型机的和审计系统的 root 密码。
    engHacker
        15
    engHacker  
       2017-02-17 12:18:24 +08:00 via iPhone
    @expkzb 楼主语文自学的
    Famio
        16
    Famio  
       2017-02-17 12:22:08 +08:00
    我知道有一个人知道,而且这个人开发了收集豆瓣小组里妹子福利图片的 app ……
    ywgx
        17
    ywgx  
       2017-02-17 12:25:50 +08:00
    入职豆瓣,加白名单自己的 IP
    sunchen
        18
    sunchen  
       2017-02-17 12:28:35 +08:00
    没什么反爬啊
    lhbc
        19
    lhbc  
       2017-02-17 12:33:42 +08:00 via iPhone
    @expkzb 如果楼主是豆瓣员工,在公共论坛讨论公司机密。最轻最轻的处罚应该是开除,如果造成信息安全事故,可能还得承担民事或者刑事责任。
    如果楼主不是豆瓣员工,那一定是伸手惯犯。
    julypanda
        20
    julypanda  
       2017-02-17 12:37:29 +08:00
    @yopming 或者是反-反爬机制
    em70
        21
    em70  
       2017-02-17 12:44:00 +08:00 via Android
    豆瓣防盗链就是按频率的,白天一分钟超过 40 次就出验证码,晚上放宽到 60
    tookbra
        22
    tookbra  
       2017-02-17 13:43:10 +08:00
    代理就能解决,邪恶点用 tor 就可以( ╯□╰ )
    wmttom
        23
    wmttom  
       2017-02-17 14:15:39 +08:00 via iPhone
    以前做过的豆瓣抓取是,伪装真实浏览器 cookie ,每个 cookie 每分钟请求几十次,高频率容易被封 ip ,保持出验证码的低频多代理。然后出验证码都是英语单词,简单处理下背景,找个 OCR 接口一调,再做下单词纠错,自动提交验证码继续抓。
    xrlin
        24
    xrlin  
       2017-02-18 23:04:11 +08:00
    我的 ip 也被拉黑了,今天用 pyspider 爬取一些豆瓣的一些信息拿来练习下数据分析つ﹏⊂
    IanPeverell
        25
    IanPeverell  
       2017-02-20 11:15:35 +08:00 via iPhone
    可能会根据你的请求频率,短时间内请求数量,以及请求间隔是否有规律
    所以我的想法是多代理,设随机不少于一定数值的延迟
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1338 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 23:39 · PVG 07:39 · LAX 15:39 · JFK 18:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.