多个千万级行数的文件,最快的求交集处理是怎么样的。

2016-09-22 11:49:04 +08:00
 johnsneakers
内容都是 uid\n , shell comm 效果不是很理想。

内容如下:
4234234
123342
42342
3523423
23423
1658 次点击
所在节点    问与答
5 条回复
jigloo
2016-09-22 12:10:51 +08:00
挂个 tmpfs, 把文件放到上面去,加上 export LC_ALL=C, 然后再用 comm
HunterPan
2016-09-22 13:18:18 +08:00
spark so easy
jininij
2016-09-22 13:21:25 +08:00
排序后求交集,复杂度仅为 1 。
hinate
2016-09-22 14:04:53 +08:00
load 到 hive 里面,查询
zhizhongzhiwai
2016-09-22 18:44:00 +08:00
@jigloo niubility

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/308091

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX