首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
华为云
V2EX  ›  程序员

请教下关于 spark rdd 的问题

  •  
  •   VoidChen · 63 天前 · 347 次点击
    这是一个创建于 63 天前的主题,其中的信息可能已经有所发展或是发生改变。

          刚开始用 spark,很多东西不清楚,不过时间紧迫所以来请教下。

          spark 的 rdd 能不能快速合并的?我现在有 30 分钟的数据需要滑动处理。每一分钟向前滑动一次,就是说 31 分的时候,读取 30-31 分钟的数据加进去,把 00-01 分钟的数据删除,那么我设想是构建 30 个 rdd,每一分钟一个。计算的时候合并这 30 个 rdd。请问这样的操作有没有?就那个合并的操作会不会很慢?

    8 回复  |  直到 2018-06-14 09:49:15 +08:00
        1
    cstj0505   63 天前   ♥ 1
    看看 spark streaming 里面的 window 功能,不要自己去撸
    再就是 rdd 是只读的,没有删除,只能新生成或者计算出来一个
        2
    VoidChen   63 天前
    顺便问下,刚看到有个分区的概念,不知能不能利用上
        3
    ywind   63 天前 via Android
    按 1 分钟分片,按 30 分钟 window 聚合。
        4
    ywind   63 天前 via Android   ♥ 1
    分区概念是针对于每个 rdd 的,用不上
        5
    VoidChen   63 天前
    @cstj0505 好,我去看下。关于 rdd 只读,我看到有个 cache 的方法,可以放到内存里,不用的时候释放掉就可以了
        6
    VoidChen   63 天前
    @ywind 我找到了,原来我想做的已经有实现了。。。
        7
    ihainan   63 天前 via iPhone
    @VoidChen cache 跟只读没有直接关联吧,RDD 每触发一次 action 都会重新从后往前计算一遍,cache 能够把中间结果缓存到内存或者磁盘,计算到这个点就会停下来,不会再往前走了。
        8
    VoidChen   63 天前
    @ihainan 刚开始看,放假前要写出能用的东西来,理解得不是很透彻。。。我看完资料的认知是,cache 会把 rdd 缓存到内存里,方便反复调用
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   实用小工具   ·   3423 人在线   最高记录 3762   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 17ms · UTC 02:05 · PVG 10:05 · LAX 19:05 · JFK 22:05
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1