Python 读取 hdfs 文件效率

2019-02-26 16:36:22 +08:00
 ylxw

python 通过 client.read()读取 hdfs 上的文件的速度特别慢,而将 hdfs 文件下载到本地,读取特别快,为什么?如果提高直接在 hdfs 上读取文件的效率?

2161 次点击
所在节点    问与答
4 条回复
wlsnx
2019-02-26 17:50:09 +08:00
“而将 hdfs 文件下载到本地,读取特别快”怎么理解?
ifaii
2019-02-26 19:15:57 +08:00
@wlsnx hdfs 是挂载卷是远程的, cp 到本地就是本地落盘了
ifaii
2019-02-26 19:17:36 +08:00
小文件多就只能上块存储 block,文件类型存储注定快不起来
VYSE
2019-02-26 23:51:54 +08:00
用过 pyjnius 直接调 jar 去从 hdfs 拖 data, 不过当时原因是没有兼容库

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/538935

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX