假设一件任务的主要工作是处理网络 IO+读写文件 IO,
使用 python 使用下面三种不同的多任务并行处理方案:
threadingNum=30
processing=3, threadingNum=10
threadingNum=10, executionNum=3
问题来了:
(另外补充一下,我特别喜欢这个社区,觉得 V 社的老哥们都是真心在讨论问题和思考问题,每次在这里讨论问题都可以学到很多东西。如果我问问题方式有不恰当的地方和提问频率较高影响到大家的话,希望大家不吝指出!)
1
zhengxiaowai 2018-03-09 11:13:29 +08:00 1
以下是个人见解:
1、Socket IO 的话明显是要用 async/await 这种异步 IO,然后开多进程启动效率最好,参考 Tornado 的部署方法 2、文件读写 IO,对于这种明显是更多的进程更有效果。但是还需要考虑的问题是 CPU 会满载、硬盘 IO 读写速度达到瓶颈,所以更好的方法是 换 CPU 和 更快硬盘。 3、分析快慢的方法,从了从直观的时间上看出了。更多需要相关的知识,比如线程进程原理可以任何一本教科书,具体的应用手法可以看 APUE 中的部分。 4、Python 处理网络 IO 各种异步库都有,FILE IO 的话没什么办法,只能用一些取巧的方法。 以上。 |
2
ioiogoo 2018-03-09 11:17:14 +08:00 1
大量网络 IO 和文件 IO 的话推荐 python >= 3.6 的 asyncio,原生支持异步操作,关键词 aiohttp
|
3
ipwx 2018-03-09 11:18:06 +08:00 1
asyncio
|
4
misaka19000 2018-03-09 12:00:55 +08:00 1
大量 IO 的话线程就行了
|
5
ai277014717 2018-03-09 12:05:51 +08:00 1
这三种情况的负载应该差不多,性能损失主要应该在上下文切换。应该从 CPU 多核利用率的角度来考虑。像 nodejs 好像可以配置根 CPU 核心数量一样的进程数来提高效率。python 么没听说过类似的功能。
|
6
sivacohan 2018-03-09 12:09:30 +08:00 via iPhone 1
网络 IO 还好说一点,文件 IO 一定程度上依赖于磁盘类型,碟片的话做顺序读写,SSD 的话做随机读写。另外磁盘本身的缓存和操作系统的缓存都会严重影响测试结果。
|
7
cloudyplain 2018-03-09 12:40:56 +08:00 1
python2: 进程+协程 gevent+uwsgi or gunicorn。
|
8
linyinma 2018-03-09 12:50:32 +08:00 1
什么时候多进程多线程和 IO 读写性能有关了?
你的需求是提高 IO 读写效率,思路应该是同步异步的问题,并行开发多进程 /多线程更多影响的进程上下文的切换带来的效率问题 /以及容错机制的考虑... |
9
xpresslink 2018-03-09 13:21:47 +08:00 1
你要从问题瓶颈入手来解决而不是上来就拍脑袋用哪个方案。
你的需求不太明确,我也不了解你现有系统的架构和性能参数,所以没办法给你正确的建议。现在就能拍出具体建议的都是大神,请鄙视我。 用哪个方案和场景有关系。你要解决整体性能问题缩短运行时间,还是只是解决阻塞的问题。 另外你充分理解三种资源的特性,网络、CPU、磁盘 比如你的网络带宽 2M,要访问的服务器每个提供的下载带宽 1M。那你开两 2 线程要行了。开 30 线程完全没有用最多也就是 2M 了,这种情况下你优化磁盘写入性能不是扯么,除了扩容你的带宽你用什么也提高不了整体性能了。 如果是运算密集型的任务,比如数据要解压解密再编码,就要考虑开多进程利多核心,如果 CPU 负载很轻只是因为阻塞速度慢,你写成多进程代码要增加复杂度,白浪费精力。 磁盘是串行读写的,传统机械硬盘就一个磁头在那里寻道读写,成批量大块的连续写入方案才能提高性能,这就是为什么硬盘都有缓存。如果写入是瓶颈而你要想的不是开多个线程,而是在内存内开个更大缓存,弄个写入队列之类的。 |
10
Nick2VIPUser OP @zhengxiaowai 谢谢老哥,分析很非常有条理,给我提供了很好的思路~
|
11
Nick2VIPUser OP |
12
Nick2VIPUser OP @linyinma 嗯,是的,主要是考虑同步异步的问题,我是突然想到线程和进程的搭配问题钻了牛角尖,谢谢老哥~
|
13
Nick2VIPUser OP @xpresslink 谢谢您,把网络、CPU、磁盘三种资源解释的很清楚,令人茅塞顿开。我想我应该从您说的这个角度去思考问题。
|
14
qs 2018-03-09 15:18:56 +08:00 1
看了半天没看到 1-2-3 这三种情况的对比和解释
|
15
vincenttone 2018-03-09 15:31:50 +08:00 1
我不太懂 python,但是这类语言从设计上来讲,cpu 密集的话,线程可能并不是一个好的选择。
但是如果是 IO 密集,根据你具体 IO 的使用、并发的数据使用形式、锁、生命周期等实际状况来选择进程、线程和异步 IO。 |
16
Nick2VIPUser OP @qs 我也发现了,可能是这样比较意义不大吧~
|