bi 大量 parquet 小文件存储方案求助

背景：目前在做的一个 bi 系统，后台有大量用户由上传文件生成的 parquet(一个项目对应两个 parquet，一个原始数据，一个新增数据，大小主要是几十 k~几百 m)，操作是随机读部分列 /更新列，由于 pyarrow 操作 parquet 不支持更新部分列，为了性能考虑更新列是操作新增数据 parquet 。当前 parquet 是储存在 nfs 。

请教： 1.有没有更好的文件储存方案？要求读文件时不用整个文件取出，因为一般只需读部分列；用户的请求路由到对应文件储存的机器上。 2.有更好的 parquet 处理方案吗？我现在用 pyarrow/pandas 处理，要求还是用 python 。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/749165

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.