公司之前做数据处理的场景,基本上一台机器可以解决,是通过一些脚本把要处理的数据文件放在机器的某个路径下,然后用 python 程序去做业务逻辑,比如去关联 mysql 中的规则进行匹配,然后更新界面使用的 mongodb 、es 这类存储系统,不只是增量的更新,是有业务逻辑的,比如把 monogdb 数据查询出来,然后对比,更新,记录之类的。
最近项目数据量比较巨大,我想知道这套代码可以用 hdfs+spark 平替吗,用 spark 来写 python 这种业务逻辑,会不会有啥问题呢。。。会有这个疑问的原因是因为,之前用 spark 就是来操作 hive ,或者 hdfs 数据的,然后直接增量覆盖到 hive 或者 es ,没有复杂的和数据库交互太多的业务逻辑,spark 是分布式计算,会不会有啥事务安全问题啥的。。。有点想不明白。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/958405
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.