不懂就问: Spark 处理业务逻辑写 SQL 还是 DataFrame?

2022-02-20 23:52:43 +08:00
 heyyyy

性能上的差异是微乎其微的,Spark 底层都是转换成 RDD 执行。对于习惯写 SQL 的人来说,似乎关注 SQL 层面的优化即可。大佬们生产上都怎么用?

1750 次点击
所在节点    程序员
5 条回复
picone
2022-02-21 00:05:06 +08:00
我觉得重点还是需要关注最终执行计划,怎么实现都不重要。看看 DAG 有没有可优化的地方,比如减少 shuffle 数据,把重复计算的地方 cahce 等等。
liprais
2022-02-21 00:18:42 +08:00
写啥都一样
sl19981007
2022-02-21 10:11:13 +08:00
sql 能实现的用 DataFrame 的各种函数也都能实现,看个人习惯吧,用哪个都能用到 Spark SQL 的各种优化机制,Catalyst 、Tungsten 等,重要的还是减少 shuffle 吧
vincent7245
2022-02-21 10:36:45 +08:00
看具体业务啦,对于临时性的简单业务,一般公司大数据中台都可以直接把 sql 提交到 spark 运行,这样更灵活一些。对于复杂的业务,一条 sql 搞不定的,或者比较稳定的业务,就手撸 DataFrame
Aksura
2022-02-21 17:51:43 +08:00
混合着用,有的逻辑 SQL 写清晰,有的逻辑调用方法清晰。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835277

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX