V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
dsg001
V2EX  ›  Python

单 IP 如何最大限度爬取 GG 搜索结果?

  •  
  •   dsg001 · 2016-08-27 15:09:32 +08:00 · 2944 次点击
    这是一个创建于 3011 天前的主题,其中的信息可能已经有所发展或是发生改变。
    换 IP 正在使用,但效率很烂,所以才想提高单 IP 的获取数量

    GG 会根据不同的 UA 返回不同样式的数据,尝试 PC 、移动端的 UA 也不咋地
    第 1 条附言  ·  2016-08-27 17:21:20 +08:00
    目前的方案,服务器绑定 N 个 IP ,不同 IP 出口设置随机时间间隔, ua 、 ref 全部随机,验证码基本 200+左右出现一次
    6 条回复    2016-08-27 22:00:13 +08:00
    em70
        1
    em70  
       2016-08-27 15:28:22 +08:00
    要论爬虫技术,这个世界谁有 google 厉害,任何小伎俩都是班门弄斧,别折腾了
    tumb8r
        2
    tumb8r  
       2016-08-27 16:29:38 +08:00 via iPhone
    @em70 说的很有道理🌚敢爬世界上最大的爬虫,加油
    lbp0200
        3
    lbp0200  
       2016-08-27 16:57:21 +08:00 via Android
    主要是验证码
    lbp0200
        4
    lbp0200  
       2016-08-27 16:58:11 +08:00 via Android
    楼主百度的?不用自己爬了,好办法
    dsg001
        5
    dsg001  
    OP
       2016-08-27 19:48:25 +08:00
    @lbp0200 用来跟踪网站排名,方便以后分析的。 另外百度应该有足够的 IP 进行轮询吧
    Mart
        6
    Mart  
       2016-08-27 22:00:13 +08:00
    @dsg001 百度有自己的标示吧?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2756 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:12 · PVG 18:12 · LAX 02:12 · JFK 05:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.