请教 spark sql 下大表 join 的优化问题

This topic created in 1566 days ago, the information mentioned may be changed or developed.

左表和右表均有含一个字符串列 name ，为方便区分称为 NL 和 NR ，目的是将左表中的每一行连接右表中的特定行，即右表中的 NR 作为子串在 NL 中位置最靠前的那一行。左表有数千万行，右表约小几万行。
尝试过:
1. 先 crossjoin 再分组聚合，问题是表太大了，内存和速度均不堪
2. join on 条件中使用子查询，问题是 spark 不支持在 join 条件中使用子查询
各位大佬有什么好办法吗？

join

Spark

左表

表

2 replies • 2022-03-03 18:58:27 +08:00

levelworm

Mar 3, 2022 via Android

分段 join 然后合起来不知道行不行，每段可能足够快？

disk

Mar 3, 2022

@levelworm 左右表裁剪后，左表分表，右表 broadcast join ，现在速度能接受了