小白求助大数据大佬 spark 问题

请教各位大佬，我用 spark 算的一张几十万级别的表，结果保存到 hive. 结果任务卡在 save task 几个小时，该如何优化呢？实例代码如下

df.write.format("orc"). saveAsTable("db. table")

df 是一个几十万条数据的 dataframe

wloverine

2021-12-09 21:49:24 +08:00

几十万不应该卡住呀，看下 spark ui 上耗时在哪里，是不是计算执行耗时

apostle

2021-12-09 21:50:11 +08:00

df 的结构如下
Id string
Itemids arrary< string>
分区字段是 partition=id%100 来填充

apostle

2021-12-09 21:54:12 +08:00

@wloverine 我在 ui 上确认过了显示 save 卡了一个多两个小时还没跑完不过我也不确定明天给大佬上图

apostle

2021-12-09 21:56:31 +08:00

@wloverine 之前也没跑过这么大数据量正常应该是多久呀

cs419

2021-12-09 22:03:23 +08:00

几十万条数据？
IDE 里单机就能跑吧有必要拆成 100 个么

可以考虑折半查找
是不是某些数据导致的卡死

好久之前写过 spark
当时提交任务老是跑挂掉
后来发现是 maven 中的 spark 版本与部署的版本不一致

zhusimaji

2021-12-09 22:25:31 +08:00

几十万数据很少了，partitions 也不要设那么多吧，具体原因看下日志吧，web 页面应该有提示

bigwhite2021

2021-12-09 23:59:15 +08:00

几十万的数据很小了，Itemids arrary< string> 里面数据很大吗？没必要分 100 个分区吧，只要保存的文件小于 128MB 应该一个分区就行了吧，具体原因可以看下 UI 里的日志和 task 的执行时间。

pengtdyd

2021-12-10 00:24:18 +08:00

跑一下 spark 的测试程序，看看是不是环境问题

wloverine

2021-12-10 08:06:37 +08:00

@apostle 几十万应该是很快的，喝杯水的功夫就跑完了

diggzhang

2021-12-10 08:30:36 +08:00

partition=id%100
----------------------------------
分区设置不合理导致。可能在加载分区目录阶段已经频繁 GC ，最终 OOM 。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/821200

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.