左表和右表均有含一个字符串列 name ,为方便区分称为 NL 和 NR ,目的是将左表中的每一行连接右表中的特定行,即右表中的 NR 作为子串在 NL 中位置最靠前的那一行。左表有数千万行,右表约小几万行。
尝试过:
1. 先 crossjoin 再分组聚合,问题是表太大了,内存和速度均不堪
2. join on 条件中使用子查询,问题是 spark 不支持在 join 条件中使用子查询
各位大佬有什么好办法吗?
尝试过:
1. 先 crossjoin 再分组聚合,问题是表太大了,内存和速度均不堪
2. join on 条件中使用子查询,问题是 spark 不支持在 join 条件中使用子查询
各位大佬有什么好办法吗?