首页   注册   登录
 wudc 最近的时间轴更新

wudc

V2EX 第 238969 号会员,加入于 2017-07-06 11:37:15 +08:00
如何预测出热点新闻?
程序员  •  wudc  •  55 天前  •  最后回复来自 congeec
8
西二旗 融泽嘉园二号院 蛋壳公寓 主卧转租
北京  •  wudc  •  95 天前  •  最后回复来自 lution
1
spark 将 dataframe 写到 hdfs 为什么会如此耗时?
程序员  •  wudc  •  178 天前  •  最后回复来自 wudc
18
wudc 最近回复了
@tinybaby365 但是结果里面有_success
55 天前
回复了 wudc 创建的主题 程序员 如何预测出热点新闻?
@WinMain 您有什么建议吗?
55 天前
回复了 wudc 创建的主题 程序员 如何预测出热点新闻?
@WinMain 是,我也想到不能只根据 ctr,因为某些新闻 ctr 很高,但是不适合做推荐,比如美女图片,突发车祸,一时 ctr 高,但是不能作为热榜。
@kex0916 是我之前了解不深,听你这么说又去查了下,终于明白了,提交的时候 master 设置为 yarn-client 就可以了,谢谢。
178 天前
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@zhusimaji 是在 yarn 上,executor-cores、num-executors 和 executor-memory 已经设置成当前集群所允许的最大值了,我再想想吧,还是非常感谢你的指导。
178 天前
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@zhusimaji 我这程序在处理大数据量的聚合时偶尔会报 OOM 内存溢出,您对此有什么比较好的解决方法吗?
178 天前
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@zhusimaji 嗯嗯,听你这么说我明白了,我分区是想防止过多结果文件的产生,现在看来有点画蛇添足了。
179 天前
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@liprais 嗯,明白了,去掉 reparation 确实快了不少,谢谢!
179 天前
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@Mondoz
@mind3x
好的,改成 coalesce 已经在测试,谢谢。
179 天前
回复了 wudc 创建的主题 程序员 spark 将 dataframe 写到 hdfs 为什么会如此耗时?
@zhusimaji 卡在 df.repartition(20).write.json(savePath)这行了,数据量比较小时还可以但是数据量一大就栈溢出
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   1775 人在线   最高记录 3541   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 14ms · UTC 04:21 · PVG 12:21 · LAX 21:21 · JFK 00:21
♥ Do have faith in what you're doing.
沪ICP备16043287号-1