V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
liangmishi
V2EX  ›  Python

爬虫使用普匿代理也不能真正匿名

  •  
  •   liangmishi · 2016-05-11 20:14:02 +08:00 · 3048 次点击
    这是一个创建于 3118 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刚才做了一番测试,只有高匿代理才能真正的隐藏真实 ip ,之前一直以为普匿代理也能隐藏 ip ,普匿在 x_forworded_for 也可以看到真实 ip

    第 1 条附言  ·  2016-05-11 21:27:24 +08:00
    不同网站检验 ip 的方式不一样,以我目前知道的有以下这两种(我只会 py web):
    一、检测 header 头中 X-Forwarded-For 第一个 ip 。如果是以这种方式检测 ip ,那么这个 header 头可以伪造,就是说,如果伪造 X-Forwarded-For ,不用使用代理也可以达到使用代理的效果。不过这种方式很少见。
    二、如果有在 nginx 里配置 proxy_set_header X-Real-IP $remote_addr; 这时检测 header 头中的 X-Real-Ip 。 虽然这个 X-Real-Ip 是无法伪造的,但是我们使用普匿代理就可以骗过服务器啦!这时候爬虫用普匿就没问题啦~
    第 2 条附言  ·  2016-05-12 20:55:01 +08:00
    原文有错,普匿也能隐藏 ip ,使用普匿,服务器端可以知道你用了代理,但是不知道你的真实 ip ,只有高匿才能完完全全不知道你使用的是代理,并且不知道你的真实 ip 。
    2 条回复    2016-05-19 22:22:52 +08:00
    jq8778
        1
    jq8778  
       2016-05-19 18:33:31 +08:00 via iPhone   ❤️ 1
    你想做隐匿性还是抗检测...
    隐匿性不用辣么麻烦,装个 tor ,直接把它的代理服务给自己用就行,这种隐匿性强,抗检测弱,因为 ip 基本 blacklist 了
    抗检测的话,如果有抗 blacklist 需求,我个人用的最好的办法有两个
    一个是滥用 aws
    另外一个是买付费服务,比如 vip72 一类的
    liangmishi
        2
    liangmishi  
    OP
       2016-05-19 22:22:52 +08:00
    @jq8778 在爬虫使用,抗检测,网上的免费代理基本上都已经被用坏掉了。所以还是买付费服务比较方便一点。滥用 aws 有点不太理解,谷歌中...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2787 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 07:50 · PVG 15:50 · LAX 23:50 · JFK 02:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.