V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
yuanrenxue
V2EX  ›  Python

又来个爬虫小偏方:修改 referer 绕开访问控制

  •  
  •   yuanrenxue · 2018-12-07 16:30:00 +08:00 · 5290 次点击
    这是一个创建于 2173 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有修改 UA 为搜索引擎蜘蛛的,但是这招越不越不管用,因为这积累一阵日志后就较容易判定出来真实蜘蛛 IP。
    另外有个 修改 referer 取巧的方法,https://www.yuanrenxue.com/crawler/crawler-tricks-2.html
    38 条回复    2018-12-21 23:34:08 +08:00
    largecat
        1
    largecat  
       2018-12-07 17:31:40 +08:00 via Android
    谢谢楼主无私分享
    paradoxs
        2
    paradoxs  
       2018-12-07 17:32:38 +08:00
    爬虫怎么入门呢。
    InternetExplorer
        3
    InternetExplorer  
       2018-12-07 17:34:36 +08:00 via Android   ❤️ 4
    这不是基本操作吗
    yuanrenxue
        4
    yuanrenxue  
    OP
       2018-12-07 17:38:27 +08:00
    @largecat 多谢
    yuanrenxue
        5
    yuanrenxue  
    OP
       2018-12-07 17:39:26 +08:00
    @paradoxs Python requests 库用起来就入门了
    zhangzilong
        6
    zhangzilong  
       2018-12-07 17:46:51 +08:00
    厉害了,老哥。我爬虫被封禁了好几天,用这招解决了。
    yuanrenxue
        7
    yuanrenxue  
    OP
       2018-12-07 17:48:30 +08:00
    @zhangzilong 你不是我的托吧, 老哥?
    zhangzilong
        8
    zhangzilong  
       2018-12-07 18:04:08 +08:00
    真不是,老哥。正好看到了这篇文章,然后就试了下,完美解决。
    kba977
        9
    kba977  
       2018-12-07 19:08:26 +08:00 via iPhone
    这不是常规操作么,手动狗头
    kosmosr
        10
    kosmosr  
       2018-12-07 19:13:49 +08:00
    所以怎么修改 referer
    ho121
        11
    ho121  
       2018-12-07 19:22:41 +08:00 via Android
    修改 referer 确实是常规操作
    Eirxxx69
        12
    Eirxxx69  
       2018-12-07 20:25:54 +08:00
    需要用户权限的访问的网页也可以通过这个方法访问么
    skylancer
        13
    skylancer  
       2018-12-07 20:57:13 +08:00
    老实说修改 referer 不是常识么...
    tumbzzc
        14
    tumbzzc  
       2018-12-07 21:22:27 +08:00 via Android
    上面说用这招解决了问题的,只能说连入门都还没有入门
    rootx
        15
    rootx  
       2018-12-07 23:15:52 +08:00
    知道了 准备堵
    agdhole
        16
    agdhole  
       2018-12-08 00:20:23 +08:00 via Android
    专门有 fake 库循环就完事了
    yuanrenxue
        17
    yuanrenxue  
    OP
       2018-12-08 00:44:11 +08:00
    @agdhole 那个不能生成 referer
    yuanrenxue
        18
    yuanrenxue  
    OP
       2018-12-08 09:44:26 +08:00
    @Eirxxx69 没法的
    whatsmyip
        19
    whatsmyip  
       2018-12-08 10:53:40 +08:00
    感觉像是在逛博客评论区

    楼主既然是来 v 站引流的,至少得放个摘要吧
    Meli55a
        20
    Meli55a  
       2018-12-08 16:02:46 +08:00
    很好
    yuanrenxue
        21
    yuanrenxue  
    OP
       2018-12-10 09:08:17 +08:00
    @Meli55a 古德
    zhangzilong
        22
    zhangzilong  
       2018-12-10 10:25:54 +08:00
    @tumbzzc 看把你能的,我又不是做这个的。装什么 B 呢
    tumbzzc
        23
    tumbzzc  
       2018-12-10 12:03:39 +08:00 via Android
    @zhangzilong 我也不是,但是就是比你厉害,咋滴?看不惯就 block
    raawaa
        24
    raawaa  
       2018-12-12 13:42:42 +08:00
    碰到验证码、甚至还会判断 selenium 行为的网站……只好流下没技术的泪水。
    locoz
        25
    locoz  
       2018-12-12 17:24:55 +08:00
    基本操作都能水一贴
    zhangzilong
        26
    zhangzilong  
       2018-12-18 15:31:09 +08:00
    @tumbzzc 没地方找优越感了?
    zhangzilong
        27
    zhangzilong  
       2018-12-18 15:32:12 +08:00
    @tumbzzc 什么玩意儿都有?
    tumbzzc
        28
    tumbzzc  
       2018-12-18 19:27:15 +08:00 via Android
    @zhangzilong 是的,就是找优越感,反正就是比你厉害,可以滚了
    zhangzilong
        29
    zhangzilong  
       2018-12-19 11:41:55 +08:00
    @tumbzzc 狗玩意儿,你怎么不滚呢。爸爸开始和你说话了吗?你比比什么呢
    zhangzilong
        30
    zhangzilong  
       2018-12-19 11:42:36 +08:00
    @tumbzzc 你从哪里感觉比我厉害,儿子?
    zhangzilong
        31
    zhangzilong  
       2018-12-19 11:43:02 +08:00
    @tumbzzc 生活是不是不如意呢?会不会说话?
    zhangzilong
        32
    zhangzilong  
       2018-12-19 11:44:36 +08:00
    @tumbzzc 你爸爸没有教过你与人为善?喷子,和你有什么关系呢。素质呢
    zhangzilong
        33
    zhangzilong  
       2018-12-19 11:54:23 +08:00
    @tumbzzc 你赶紧有多远滚多远吧
    tumbzzc
        34
    tumbzzc  
       2018-12-19 16:09:14 +08:00
    @zhangzilong 真是疯狗
    zhangzilong
        35
    zhangzilong  
       2018-12-19 19:33:24 +08:00
    @tumbzzc 你先告诉我,你爸爸有没有教你与人为善?
    zhangzilong
        36
    zhangzilong  
       2018-12-19 19:34:04 +08:00
    @tumbzzc 我碰到人,我就是人。碰到狗就是狗。
    tumbzzc
        37
    tumbzzc  
       2018-12-21 23:31:06 +08:00 via Android
    @zhangzilong 啧啧,看看自己说过的话吧,疯狗,有脸说别人?
    tumbzzc
        38
    tumbzzc  
       2018-12-21 23:34:08 +08:00 via Android
    @zhangzilong 再见了,疯狗,也许你这辈子都不会知道自己多无知
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3444 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:38 · PVG 19:38 · LAX 03:38 · JFK 06:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.