首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Scala

spark 技术面试被问到个问题,有点问懵逼了,求指点

  •  1
     
  •   naga1003 · 41 天前 · 644 次点击
    这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:什么应用场景下 group by 比 reduce by 更好?

    当时懵逼了,感觉不是默认都尽量使用 reduce by 吗,现在我能想到的情况也只有在 key 值非常少的情况下用 group by 比较好,不知道对不对。

    5 回复  |  直到 2018-12-07 23:39:35 +08:00
        1
    paradoxs   41 天前
    在对大数据进行复杂计算时,reduceByKey 优于 groupByKey。

    另外,如果仅仅是 group 处理,那么以下函数应该优先于 groupByKey:
      ( 1 )、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。
      ( 2 )、foldByKey 合并每一个 key 的所有值,在级联函数和“零值”中使用。

    ---
    https://blog.csdn.net/zongzhiyuan/article/details/49965021
        2
    VoidChen   41 天前
    groupBy 不好的原因是因为在计算前会先移动数据,reduceby 是先各自计算出结果再汇聚起来计算。所以什么情况下用 groupBy 好呢,我想啊,可能在需要移动数据的时候,比如说我有一批数据希望分组存放,直接移到一起输出成一个文件,后续分 rdd 直接一个文件一个 rdd 这么计算就会非常快。我也刚学没多久,不知道说得对不对,只是给出一点想法=。=
        3
    vowers   41 天前
    em.....我都是能用 reduce 绝不用 group 的。。。
        4
    naga1003   41 天前
    费解的就在问的是 group by 的优势啊,我是怎么都感觉没有优势啊,看来还是经验少了。
        5
    naga1003   41 天前
    但仔细一想,如果 groupbykey 没有任何优点的话,岂不是没有存在必要了?所以应该确实是有应用场景的。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   999 人在线   最高记录 4236   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.2 · 16ms · UTC 23:07 · PVG 07:07 · LAX 15:07 · JFK 18:07
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1