spark 技术面试被问到个问题,有点问懵逼了,求指点

2018-12-07 09:36:27 +08:00
 naga1003

问题:什么应用场景下 group by 比 reduce by 更好?

当时懵逼了,感觉不是默认都尽量使用 reduce by 吗,现在我能想到的情况也只有在 key 值非常少的情况下用 group by 比较好,不知道对不对。

6446 次点击
所在节点    Scala
6 条回复
paradoxs
2018-12-07 09:52:27 +08:00
在对大数据进行复杂计算时,reduceByKey 优于 groupByKey。

另外,如果仅仅是 group 处理,那么以下函数应该优先于 groupByKey:
  ( 1 )、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。
  ( 2 )、foldByKey 合并每一个 key 的所有值,在级联函数和“零值”中使用。

---
https://blog.csdn.net/zongzhiyuan/article/details/49965021
VoidChen
2018-12-07 10:03:45 +08:00
groupBy 不好的原因是因为在计算前会先移动数据,reduceby 是先各自计算出结果再汇聚起来计算。所以什么情况下用 groupBy 好呢,我想啊,可能在需要移动数据的时候,比如说我有一批数据希望分组存放,直接移到一起输出成一个文件,后续分 rdd 直接一个文件一个 rdd 这么计算就会非常快。我也刚学没多久,不知道说得对不对,只是给出一点想法=。=
vowers
2018-12-07 11:22:32 +08:00
em.....我都是能用 reduce 绝不用 group 的。。。
naga1003
2018-12-07 23:36:19 +08:00
费解的就在问的是 group by 的优势啊,我是怎么都感觉没有优势啊,看来还是经验少了。
naga1003
2018-12-07 23:39:35 +08:00
但仔细一想,如果 groupbykey 没有任何优点的话,岂不是没有存在必要了?所以应该确实是有应用场景的。
sakura1
2020-08-14 14:39:43 +08:00
不支持结合律的计算,比如去重?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/515228

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX