在做一个爬虫程序,图片的服务器用的是qiniu
。
要求:
现在碰到一个问题,就是爬一个链接的时候,大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率?
我先提一种解决方案:
先爬站的内容,然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的,依次上传。但是感觉这种设计很复杂,工作线程要查找每个图片的字段,如果以后有新的图片字段,那么这部分逻辑又需要改。
1
myoula 2016-02-16 13:52:53 +08:00 1
|
2
ufo22940268 OP |
3
virusdefender 2016-02-16 14:09:01 +08:00
异步和多线程
|
4
sarices 2016-02-16 14:12:47 +08:00
放到队列处理啊
|
5
Karblue 2016-02-16 16:45:46 +08:00
1.多线程爬和传(可以一个队列专门处理爬虫投递过来的链接)
2.先爬。爬完再批量传 |
6
cloverstd 2016-02-16 17:34:42 +08:00
|
7
muziyue 2016-02-16 17:59:49 +08:00
根本不用下载再上传呀,设置好镜像可以直接存到七牛里面的
|
8
jedyu 2016-02-16 18:09:33 +08:00
爬链接和爬图片不要线性执行,多线程或多进程都可以
|