V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
practicer
V2EX  ›  Python

Python 爬虫项目如何管理?

  •  1
     
  •   practicer · 2016-10-08 17:51:38 +08:00 · 6155 次点击
    这是一个创建于 2968 天前的主题,其中的信息可能已经有所发展或是发生改变。

    换工作后终于名正言顺写爬虫了,团队中只有我一个人写爬虫项目, 最近有个爬虫项目持续到年底,一天爬一个网站的速度,那么, 百来个爬虫项目如何管理呢? 我不用 scrapy, 有什么 tricky 或者建议请不吝赐教.

    我期望的比较好的管理方式是部署到 web, 通过 web 管理. 实在不行就只能用 excel 管理啦.

    20 条回复    2020-04-08 08:33:17 +08:00
    50vip
        1
    50vip  
       2016-10-08 17:57:43 +08:00
    不知道是什么意思~
    wico77
        2
    wico77  
       2016-10-08 18:39:50 +08:00
    pyspider, 不过这个适合定时爬。
    Patrick95
        3
    Patrick95  
       2016-10-08 18:46:32 +08:00
    用 Python 再写一个爬虫项目的 Web 管理系统嘛,应该不难呀。
    wayslog
        4
    wayslog  
       2016-10-08 18:59:06 +08:00 via Android
    crontab+版本控制自动跑,考虑到迁移 ip 的事儿再用 ansible 写了个半自动化部署脚本。。。用的也挺好的
    practicer
        5
    practicer  
    OP
       2016-10-08 19:11:18 +08:00 via iPhone
    @wico77 看起来很有用,真的很感谢分享
    practicer
        6
    practicer  
    OP
       2016-10-08 19:12:03 +08:00 via iPhone
    @Patrick95 重新写不是挺慢的吗
    Kilerd
        7
    Kilerd  
       2016-10-08 20:11:43 +08:00
    造轮子,造轮子!!!
    crayonyi
        8
    crayonyi  
       2016-10-08 20:53:43 +08:00
    我是自己写了一个通用爬虫系统,后面用 django admin ,管理 10 几个爬虫的爬取规则及定时任务
    cphilo
        9
    cphilo  
       2016-10-08 21:22:58 +08:00
    所有爬虫采用配置,然后弄个消息队列用来调度爬虫任务,基本上维护起来非常方便了,生产环境中几百个站点实践过
    practicer
        10
    practicer  
    OP
       2016-10-09 09:08:03 +08:00
    @cphilo 能不能详细说明一下啊?
    practicer
        11
    practicer  
    OP
       2016-10-09 09:08:45 +08:00
    @wayslog 有相关的教程吗?谢谢
    wayslog
        13
    wayslog  
       2016-10-09 10:26:24 +08:00 via Android
    @practicer 没啥教程……基本上修修补补就出来了……又不是啥难得事儿……几个脚本的事儿
    zluyuer
        14
    zluyuer  
       2016-10-09 12:29:13 +08:00
    推荐采用 Rundeck 调度
    brucedone
        15
    brucedone  
       2016-10-09 16:41:57 +08:00
    执行载体暴露 api ,以 xml 或者 json 做为标准格式,执行载体要有当前执行,待跑列表,历史记录,爬虫管理,执行或者删除等核心功能,然后以此的基础上,你就欢快的脱离语言自己造轮子吧。
    brucedone
        16
    brucedone  
       2016-10-09 17:26:22 +08:00
    关于调度的,欢迎你使用这个。[调度]可视化的调度架构-Dagobah] http://brucedone.com/archives/754
    practicer
        17
    practicer  
    OP
       2016-10-09 18:47:57 +08:00 via iPhone
    @brucedone 这个工具很灵活啊,谢谢了
    ytmsdy
        18
    ytmsdy  
       2016-10-09 20:48:53 +08:00
    pyspider
    cszhiyue
        19
    cszhiyue  
       2016-10-10 16:15:17 +08:00
    @brucedone 更加完善的

    incubator-airflow
    tikazyq
        20
    tikazyq  
       2020-04-08 08:33:17 +08:00
    crawlab
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1607 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:59 · PVG 00:59 · LAX 08:59 · JFK 11:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.