scrapy 如何多开 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3144 天前的主题，其中的信息可能已经有所发展或是发生改变。

用 scrapy 爬几百万的 url ，现在开一个 scrapy 效率有点慢。

考虑如何多开几个 scrapy ，通过分割队列来运行。

现在遇到的情况是复制原来项目，修改 spider 名字以及 setting 部分设置。运行报错找不到 spider

仅仅复制原来项目，修改队列。发现还是原来的 spider

请大家指教下，如何通过分割队列运行 scarpy

6 条回复 • 2016-09-12 19:05:31 +08:00

1

laoyur

2016-09-12 15:18:32 +08:00

把这几百万 url 扔到 redis 里，让爬虫自己来取？

2

BiggerLonger

2016-09-12 16:08:22 +08:00

試一下把線程數開高一點

3

facat

2016-09-12 16:16:06 +08:00 via Android

爬虫是受网络 i/o 影响大，多开不见得有效果

4

neosfung

2016-09-12 16:27:56 +08:00

https://www.zhihu.com/question/26062225

5

mrytsr

2016-09-12 17:57:05 +08:00 via Android

分级的话内部自动通过协程多开

6

ssllff123

OP

2016-09-12 19:05:31 +08:00

好吧。发现多开并没有提高多少效率。现在能提高效率的应该就是 redis 了。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5063 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 03:41 · PVG 11:41 · LAX 20:41 · JFK 23:41
Developed with CodeLauncher
♥ Do have faith in what you're doing.