V2EX 首页   注册   登录
 wudc 最近的时间轴更新

wudc

  •   V2EX 第 238969 号会员,加入于 2017-07-06 11:37:15 +08:00
    wudc 最近回复了
    @kex0916 是我之前了解不深,听你这么说又去查了下,终于明白了,提交的时候 master 设置为 yarn-client 就可以了,谢谢。
    58 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @zhusimaji 是在 yarn 上,executor-cores、num-executors 和 executor-memory 已经设置成当前集群所允许的最大值了,我再想想吧,还是非常感谢你的指导。
    58 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @zhusimaji 我这程序在处理大数据量的聚合时偶尔会报 OOM 内存溢出,您对此有什么比较好的解决方法吗?
    58 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @zhusimaji 嗯嗯,听你这么说我明白了,我分区是想防止过多结果文件的产生,现在看来有点画蛇添足了。
    59 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @liprais 嗯,明白了,去掉 reparation 确实快了不少,谢谢!
    59 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @Mondoz
    @mind3x
    好的,改成 coalesce 已经在测试,谢谢。
    59 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @zhusimaji 卡在 df.repartition(20).write.json(savePath)这行了,数据量比较小时还可以但是数据量一大就栈溢出
    59 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @liprais 想最后把结果写到 20 个文件中
    59 天前
    回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
    @linuxchild 嗯,谢谢,我加上了这段代码 df.persist(StorageLevel.MEMORY_AND_DISK_SER),现在程序在跑
    @Hzzone
    @mrdemonson
    感谢二位的建议,我考虑下
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   594 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 45ms · UTC 19:00 · PVG 03:00 · LAX 11:00 · JFK 14:00
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1