这个算法题难道了多少人?

2016-03-21 10:43:52 +08:00
 hobbyliu

有 f1 、 f2 两个大文件,里面有若干行 IP 记录,大小分别 1T 左右,现在在机器内存只有 1G 。求这 f1 、 f2 两个文件的差集。

1889 次点击
所在节点    问与答
6 条回复
rock_cloud
2016-03-21 10:55:54 +08:00
1T 的文本,看起来有大量的 IP 是重复的啊,至少 16 倍的重复量(如果我没算错)。
dingyaguang117
2016-03-21 10:57:21 +08:00
先合并排序,再遍历比较一边
3dwelcome
2016-03-21 10:58:02 +08:00
这不就是基础面试题,算每行 ip 的 hash, 根据 hash 最前面两位值来进行 255 数据分组, 1T 数据就可以被分成 1T/255 处理,依此类推,把每组装到 1G 内存里计算冲突,留下的就是差集。

其实楼主这是伪命题, ip 地址表示成 unsigned int, 也就 4G 范围, 如果按照 1bit 占位表示, 4G/8 = 530M, 在 1G 内存里完全可以装下的。
hobbyliu
2016-03-21 11:07:18 +08:00
恩 这个题目出的不够严谨,换成 文件里面有若干不重复的字符串
tabris17
2016-03-21 11:08:22 +08:00
说不定是 IPv6 的地址
Moker
2016-03-21 11:11:21 +08:00
上次的题目 不是就差集 而是算出每个 IP 的数量 并统计出来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/265073

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX