看到一道面试题，多线程适合用来做大量文件的读取吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1127 天前的主题，其中的信息可能已经有所发展或是发生改变。

去找磁盘下所有指定扩展名的文件，打开文件去找指定规则的内容，然后生成一个报表。如果文件特别多要如何处理（考察多线程以及分布式）。

threading 和 multiprocessing 哪个更适合呢？

文件

多线程

threading

指定

13 条回复 • 2022-03-17 19:08:47 +08:00

jones2000

2022-03-16 22:30:41 +08:00

瓶颈不在读文件，瓶颈是你合并报表程序的处理能力，假如是分布式 1 次读几百万个文件，1s 发送 1T 的数据过来，你生成报表的程序能顶的住吗？

antipro

2022-03-16 22:34:06 +08:00 via Android

哪类磁盘 1 秒读 1T ？我觉得读取本身不需要多线程。

sparky

2022-03-16 22:40:36 +08:00 via Android

@jones2000 加 mq 多消费者可以解决吧

zhouAndy

2022-03-16 22:43:32 +08:00

这个题考察的点很基础读文件的瓶颈在磁盘的 IO 上，上多线程并不管用，，，文件读完后的处理上多线程才有意义

hallDrawnel

2022-03-16 23:05:07 +08:00

如果从多个磁盘读写会有差异

mhycy

2022-03-16 23:13:59 +08:00

需要看目标磁盘的结构决定是否多线程
如果是磁盘，单线程效率远高于多线程
软件本身可以多线程实现异步队列来做后续处理
但读取前端受限于 HDD 只能单线程操作，这是原理决定的

如果是 NVME ，多进程，或者异步 IO

mhycy

2022-03-16 23:14:43 +08:00

接上补充，SATA SSD 需要考虑并发性能，这货的承载力没有 NVME 盘那么高

ClericPy

2022-03-16 23:32:41 +08:00

说的有点像读取百万小碎文件时候的瓶颈如何解决的事情, 联想到现公司被一句 cat /xxxxx/xxxxxxxxx/**/* |gzip -d 处理二十万碎文件整的真叫死去活来了

多进程把 n 个核心都用上(而不是每个文件开一个进程, 那切换开销大到吓人)有点用, 多线程流式读文件应该也有点用毕竟从磁盘读入内存 IO 瓶颈也挺大. 脑子里蹦出 HDF5 / mmap / 零拷贝啥的, 但是想不起来有没有关系