bi 大量 parquet 小文件存储方案求助

2021-01-28 11:18:45 +08:00
 cassidyhere

背景: 目前在做的一个 bi 系统,后台有大量用户由上传文件生成的 parquet(一个项目对应两个 parquet,一个原始数据,一个新增数据,大小主要是几十 k~几百 m),操作是随机读部分列 /更新列,由于 pyarrow 操作 parquet 不支持更新部分列,为了性能考虑更新列是操作新增数据 parquet 。当前 parquet 是储存在 nfs 。

请教: 1.有没有更好的文件储存方案?要求读文件时不用整个文件取出,因为一般只需读部分列;用户的请求路由到对应文件储存的机器上。 2.有更好的 parquet 处理方案吗?我现在用 pyarrow/pandas 处理,要求还是用 python 。

1008 次点击
所在节点    程序员
1 条回复
levelworm
2021-01-28 11:37:03 +08:00
我们公司之前是用 s3 + databrick 的,不过我也不太了解技术细节。。。同样也是大量 parquet 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/749165

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX