naga1003
V2EX  ›  Scala

spark 技术面试被问到个问题,有点问懵逼了,求指点

  •  1
     
  •   naga1003 · Dec 7, 2018 · 9971 views
    This topic created in 2714 days ago, the information mentioned may be changed or developed.

    问题:什么应用场景下 group by 比 reduce by 更好?

    当时懵逼了,感觉不是默认都尽量使用 reduce by 吗,现在我能想到的情况也只有在 key 值非常少的情况下用 group by 比较好,不知道对不对。

    6 replies    2020-08-14 14:39:43 +08:00
    paradoxs
        1
    paradoxs  
       Dec 7, 2018
    在对大数据进行复杂计算时,reduceByKey 优于 groupByKey。

    另外,如果仅仅是 group 处理,那么以下函数应该优先于 groupByKey:
      ( 1 )、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。
      ( 2 )、foldByKey 合并每一个 key 的所有值,在级联函数和“零值”中使用。

    ---
    https://blog.csdn.net/zongzhiyuan/article/details/49965021
    VoidChen
        2
    VoidChen  
       Dec 7, 2018
    groupBy 不好的原因是因为在计算前会先移动数据,reduceby 是先各自计算出结果再汇聚起来计算。所以什么情况下用 groupBy 好呢,我想啊,可能在需要移动数据的时候,比如说我有一批数据希望分组存放,直接移到一起输出成一个文件,后续分 rdd 直接一个文件一个 rdd 这么计算就会非常快。我也刚学没多久,不知道说得对不对,只是给出一点想法=。=
    vowers
        3
    vowers  
       Dec 7, 2018
    em.....我都是能用 reduce 绝不用 group 的。。。
    naga1003
        4
    naga1003  
    OP
       Dec 7, 2018
    费解的就在问的是 group by 的优势啊,我是怎么都感觉没有优势啊,看来还是经验少了。
    naga1003
        5
    naga1003  
    OP
       Dec 7, 2018
    但仔细一想,如果 groupbykey 没有任何优点的话,岂不是没有存在必要了?所以应该确实是有应用场景的。
    sakura1
        6
    sakura1  
       Aug 14, 2020
    不支持结合律的计算,比如去重?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3410 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 11:00 · PVG 19:00 · LAX 04:00 · JFK 07:00
    ♥ Do have faith in what you're doing.