spark 怎样处理后台需要被频繁更新的数据?

2018-10-20 14:59:38 +08:00
 cassidyhere
目前在做的一个项目,用户上传 csv 文件后,可以对文件进行 ETL 操作。目前后台用 spark 处理,spark 把用户上传的文件创建 table 并缓存,用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁,文件可能从几 m~几 g 不等,修改 table 和更新缓存的开销比较大,有没有比较好的优化方案? web 开发里多个接口会修改或访问同一个比较大的对象,一般会怎么处理?
1869 次点击
所在节点    程序员
1 条回复
piggybox
2018-10-21 03:25:45 +08:00
可能需要支持频繁更新的存储,比如 Kudu

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/499415

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX