读取大文件，最快的方式是什么？

AX5N

2018-05-05 19:16:26 +08:00

@AX5N 按我经验
如果瓶颈在 IO 上的话，一次直接把所有内容都读进内存是最快的。
如果瓶颈在对内容细致地分析 /计算上的话，例如你要遍历 10G 文本里每个字节的话，那就必须得换语言才行。
如果瓶颈在于整体的处理速度的话，例如你要压缩一段文件。那这个就随便了，随便读取一部分处理完再继续读取就好。

pathbox

2018-05-05 19:27:26 +08:00

逐行读取

分块读取

用 shell 脚本应该会很快很快

livc

2018-05-05 19:31:30 +08:00

awk ？

AX5N

2018-05-05 19:33:10 +08:00

@sjmcefc2 你这个文本有多少行？

AX5N

2018-05-05 19:48:54 +08:00

@sjmcefc2
100G 的文本有点夸张。

先说读取
假如你的硬盘是 HDD，按照 120M/s 来算的话，读取 10G 需要 850s ；
如果你的硬盘是 SSD，按照 450M/s 来算的话，需要 230s ；
无论你怎么来，无论你用什么办法，应该是不会慢过这个速度多少的，也不会快过这个速度多少。

再说处理
100G 的文本估计 10 亿行应该是有的吧，这个数量真的是太大了，单线程处理的话，python 速度慢的缺点会被暴露无遗。
所以建议你多进程、多线程来处理。

你这个每行之间没有联系，可以靠多线程来提高性能。如果碰上那种每行之间互有联系的，只能换 c++慢慢跑，python 绝对不行。

redsonic

2018-05-05 19:57:00 +08:00

像这类文件访存的效率问题都是处理时间和空间把戏。如果一个大文件要在短时间内随机访问上万次，用 mmap 应该是最好的。如果只是访问那么几次还不如 open write read。不过一般情况下无脑用 iostream 难道还不够快？

bfpiaoran

2018-05-05 23:11:17 +08:00

100G 不大昨天我们这有读 6T 的用的 seek 不知道速度怎么样。。。。

swulling

2018-05-06 00:28:54 +08:00

@sjmcefc2 你这个瓶颈不在 IO，是你具体处理逻辑太慢。你做个 Profile 就知道了

speedywind

2018-05-06 00:28:57 +08:00

不管什么语言，逐行读取肯定会慢一点，最快的方法是用 buff，

konakona

2018-05-06 00:29:35 +08:00

看要怎么处理，一般是分段分段（多少行到多少行，或者其他标识符号来记忆）提取后执行处理。
如果是要在 100GB 的文本里进行搜索……=v=呵呵呵呵呵呵呵呵

speedywind

2018-05-06 00:30:07 +08:00

一次读取 4k 的数据，因为一般现在分区都是 4k 对齐的

memorybox

2018-05-06 10:14:44 +08:00

这个问题其实有时候可以取巧处理的，比如用 parallel 工具，我觉得挺有意思，写了一篇文章，希望有帮助:

http://happy123.me/blog/2018/05/06/how-to-improve-performance-your-cmd-by-parallel/

sjmcefc2

2018-05-06 11:36:51 +08:00

@livc 目前只会 sed
@memorybox 这个可以试试。

BBCCBB

2018-05-06 12:36:39 +08:00

with open("file_name", 'r') as input:
for line in input:
#process

我记得这种就是流式读取的啊???

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/452267

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.