去找磁盘下所有指定扩展名的文件,打开文件去找指定规则的内容,然后生成一个报表。 如果文件特别多要如何处理(考察多线程以及分布式)。
threading 和 multiprocessing 哪个更适合呢?
1
jones2000 2022-03-16 22:30:41 +08:00
瓶颈不在读文件, 瓶颈是你合并报表程序的处理能力, 假如是分布式 1 次读几百万个文件,1s 发送 1T 的数据过来, 你生成报表的程序能顶的住吗?
|
2
antipro 2022-03-16 22:34:06 +08:00 via Android
哪类磁盘 1 秒读 1T ?我觉得读取本身不需要多线程。
|
4
zhouAndy 2022-03-16 22:43:32 +08:00
这个题考察的点 很基础 读文件的瓶颈在磁盘的 IO 上, 上多线程并不管用,,,文件读完后的处理上多线程才有意义
|
5
hallDrawnel 2022-03-16 23:05:07 +08:00
如果从多个磁盘读写会有差异
|
6
mhycy 2022-03-16 23:13:59 +08:00
需要看目标磁盘的结构决定是否多线程
如果是磁盘,单线程效率远高于多线程 软件本身可以多线程实现异步队列来做后续处理 但读取前端受限于 HDD 只能单线程操作,这是原理决定的 如果是 NVME ,多进程,或者异步 IO |
7
mhycy 2022-03-16 23:14:43 +08:00
接上补充,SATA SSD 需要考虑并发性能,这货的承载力没有 NVME 盘那么高
|
8
ClericPy 2022-03-16 23:32:41 +08:00
说的有点像读取百万小碎文件时候的瓶颈如何解决的事情, 联想到现公司被一句 cat /xxxxx/xxxxxxxxx/**/* |gzip -d 处理二十万碎文件整的真叫死去活来了
多进程把 n 个核心都用上(而不是每个文件开一个进程, 那切换开销大到吓人)有点用, 多线程流式读文件应该也有点用毕竟从磁盘读入内存 IO 瓶颈也挺大. 脑子里蹦出 HDF5 / mmap / 零拷贝 啥的, 但是想不起来有没有关系 |
10
vance123 2022-03-17 01:02:46 +08:00 via Android
我有一次用 Python 处理百万个 html 文件,远远达不到 IO 瓶颈,解释性语言的开销太大了
|
11
westoy 2022-03-17 01:22:08 +08:00
|
12
biubiuF 2022-03-17 12:40:23 +08:00
多线程查找,读取的话瓶颈在 io 单线程效率最高,数据处理再多线程,扇入扇出模型
|