V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
RadAsm
V2EX  ›  Python

爬虫这种东西受制于网速么,明明我睡很久了。。。

  •  
  •   RadAsm · 2015-11-21 17:42:47 +08:00 · 4761 次点击
    这是一个创建于 3320 天前的主题,其中的信息可能已经有所发展或是发生改变。

    因为朋友是做民航的,希望能够看到未来几天内某个航段的价格情况。
    就写了个爬虫,打算从协程爬取数据,因为本来我是刚接触爬虫这个东西,所以基本算是不懂了。
    楼主使用的是 selenium 进行数据的爬取,代码在这里

    协程的每个页面的数据需要进行下拉才能将数据显示完全。

    我在办公室(网速有点慢吧,但是页面能够流畅的打开,并且我增加了 js 交互后的 sleep 时间)运行这段代码,基本上崩溃。。。看错误信息,基本上就是 WebElement 找不到(难道睡 10 秒都不够吗?)

    但是,在家里,都能爬取成功。

    不明所以,希望和 v 友讨论讨论。。

    还有,向请教:正确的爬虫姿势是怎样的?

    6 条回复    2015-11-22 23:41:51 +08:00
    jugelizi
        1
    jugelizi  
       2015-11-21 18:13:45 +08:00
    为什么不直接抓 js 请求的数据
    knightdf
        2
    knightdf  
       2015-11-21 18:40:19 +08:00
    selenium 慢的一比。。。你还不如抓下他 ajax 的接口
    RadAsm
        3
    RadAsm  
    OP
       2015-11-21 18:42:29 +08:00
    @knightdf 确实慢 =。=
    XianZaiZhuCe
        4
    XianZaiZhuCe  
       2015-11-21 18:45:07 +08:00 via Android
    携程的数据不行,抓航旅的
    lostsnow
        5
    lostsnow  
       2015-11-21 20:36:43 +08:00
    scrapy
    coolzilj
        6
    coolzilj  
       2015-11-22 23:41:51 +08:00
    https://www.apifier.com/
    爬虫新姿势
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1111 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 23:09 · PVG 07:09 · LAX 15:09 · JFK 18:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.