V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
okface
V2EX  ›  Python

pyspider 有什么坑吗

  •  
  •   okface · 2018-06-29 17:08:00 +08:00 · 2561 次点击
    这是一个创建于 2371 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在 v2 看到好多次说不建议使用 pyspider 的,但是目前公司主要用的就是这个,因为他的可视化界面。
    所以,pyspider 到底都有哪些坑?有个印象好避免。
    第 1 条附言  ·  2018-06-29 18:42:59 +08:00
    最近遇到的比较多的一个问题是,比如依次读取一个 100 万行的文件,作为 get 请求的一个 url 参数,但是读到 30 多万就停了。这一百万是去重后的一百万。
    5 条回复    2020-06-26 08:08:16 +08:00
    hahastudio
        1
    hahastudio  
       2018-06-29 17:12:11 +08:00
    sethverlo
        2
    sethverlo  
       2018-06-29 17:13:41 +08:00
    Google 关键词「 pyspider site:v2ex.com
    X-Force
        3
    X-Force  
       2018-06-30 00:55:32 +08:00
    P2P0Zj31DA4X5ap4
        4
    P2P0Zj31DA4X5ap4  
       2018-07-01 01:40:23 +08:00
    100 万行你要用数据库了吧,默认哪个 lite 的支持不了。
    dfwr3
        5
    dfwr3  
       2020-06-26 08:08:16 +08:00
    我也遇到过,在抓取网页时,a 链接明明有 30 条,但他只能抓到 2 条。换一个列表页又正常了,感觉是 html 中的特殊隐藏字符的原因,现在也没解决。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2484 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 16:01 · PVG 00:01 · LAX 08:01 · JFK 11:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.