对约 35g 的数据去重

数据占了 35g 左右存储,有标识每条数据的 id,还剩大约 7g 空闲空间,需要对这 35g 的数据去重,内存是 8g 的.如何对数据进行去重?

alalida

2020-02-04 10:33:49 +08:00

你先想一想目标时间复杂度和空间复杂度。去重意味要查找，那最好也就对数时间复杂度。此外要看能否分批处理，数据有无规律。可以分批处理也会快很多。总之要先看数据长什么样。

otakustay

2020-02-04 10:36:13 +08:00

数据是 35G，其中 id 部分有多大？不大的话哈希应该是有办法建起来的……

shuangyeying

2020-02-04 10:39:03 +08:00

是裤子么？

opengps

2020-02-04 10:39:44 +08:00

去重字段仅仅是 id 字段？还是全字段匹配？

malusama

2020-02-04 10:44:37 +08:00

bloomfilter 有误差率

yylxbiubiu

2020-02-04 10:50:10 +08:00

@opengps 每个 id 字段标识这条数据

yylxbiubiu

2020-02-04 10:50:23 +08:00

@shuangyeying 不是的,亲

yylxbiubiu

2020-02-04 10:51:43 +08:00

@alalida 在用分片,时间换空间,但很慢,每次 10w 条

yylxbiubiu

2020-02-04 10:52:31 +08:00

@malusama 有空间限制的

yylxbiubiu

2020-02-04 10:53:41 +08:00

@alalida 经过分析,每条数据里边的 id 唯一标识这条数据

wysnylc

2020-02-04 11:11:07 +08:00

把 id 提出来，还能有 35g ？

ho121

2020-02-04 11:17:06 +08:00

对每条数据 hash 后存到哈希表或者二叉树中。
hash 算法也不需要碰撞率很低的那种，比如 crc32，crc64 这种简单的就行，这样可以加快 hash 速度，并减少内存使用。当碰到 hash 相同的，需要做完全匹配来判断数据是否真的是相等。
哈希表或者二叉树每个节点要存下每个 hash 对应的 id （可能有多个）。

数据用流式读取，或者扔进数据库中。

手机码字，有点乱

grimpil

2020-02-04 11:18:08 +08:00

还以为是 35 克数据

yylxbiubiu

2020-02-04 11:22:23 +08:00

@grimpil 哈哈哈哈哈哈

keepeye

2020-02-04 11:24:07 +08:00

遍历所有数据，id 字段走布隆过滤器去重用不了多少内存

mxT52CRuqR6o5

2020-02-04 11:26:58 +08:00

Bitmap

binux

2020-02-04 11:29:05 +08:00

如果数据>>id，拿 id 出来随便爱怎么搞怎么搞
如果数据就是 id，每 7g 分片排序再 merge 排序。

zengguibo

2020-02-04 11:57:32 +08:00

如果只是文本数据，压缩一下传到性能强内存大的机器上，直接导入内存去重

Tlvncks

2020-02-04 12:06:51 +08:00

引用；@grimpil #13 还以为是 35 克数据

-------------------------------------------------------
我也看了半天，还在想 35g 啥玩意？难道想提纯？？

Rekkles

2020-02-04 12:19:26 +08:00

数据 hash 然后对比去重？
有个笨一点的办法，数据导入 db 做唯一索引一条一条导入，导入失败的就是重复的，牺牲时间换空间。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/642009

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.