关于mysql大量数据去重和索引大数据的问题

总数据量20亿，只有两个列，id和name

id和name是多对多的关系，一个id可以有很多name，一个name可能会被很多id用

比如

1 asd
1 qwe
2 fgh
2 asd
3 ljk

这20亿条数据分了10个表，每个表2亿，每个表分别对id和name做了两个普通的btree索引。

数据可能在每个表里有重复，也有可能在不同表里有重复。

比如表1可能有2个
1 asd
1 asd

也有可能表1没有重复的
1 asd
但是表2里有

现在要对这20亿数据去重
可以有
1 asd
1 qwe

但是不能有两个
1 asd

数据库服务器24G内存，建了个memory引擎的表，加了unique 索引，从每个表内单独选取数据，用insert ignore插入，然后再写入到硬盘，对每个表内的重复数据进行了去重，2亿差不多能去掉3000-5000w

但是因为内存大小限制，内存里只能同时放下2亿数据。用myisam引擎的表加unique索引去重，跑了1天都没插完2亿数据（数据库放在ssd上）……

第二个问题：

对name列建立索引，里面有中文有英文，gbk编码。假如其中一个name的内容是：

"我们希望 V2EX 能够成为中文世界中氛围最好的社区"

假如我查询关键词是 “中文世界”，想匹配上面的那句话，如果想用上索引的话，是不是只能用full text 索引了？不过我不需要任何分词之类的功能，只要匹配文中任意位置的字符串就行。建full text 索引好像有点慢。

vibbow

2014-01-29 20:55:20 +08:00

@a2z 你合并那20亿的数据，全部处理一遍是跑不了的了。

还有其实不仅仅可以有第三列，还可以有第四列
其中第三列保存MD5截取前四个字母，转换成integer，第四列再保存完整的MD5
这样可以先快速通过第三列筛选出可能重复的数据，再根据第四列完整对比
可以节约很多查询的。

rqrq

2014-01-30 15:33:30 +08:00

第一个问题：
一张表2亿数据，加字段就要等半天，还要计算md5，然后再去重的话……
其实可以先把10张表的数据汇总到一张表new_tbl_all（事先加上id+name的普通联合索引）
然后再建一张不加索引的最终表new_tbl_final
再执行以下sql语句
INSERT INTO new_tbl_final (id, name) SELECT id, name FROM new_tbl_all WHERE id <= 五百万 GROUP BY id, name

自己控制这条sql语句，修改id的值就行（五百万的话，大概要执行400次……）
当然作为一只程序员怎么能容忍手动控制，写个类似分页的脚本让它自己跑吧。
最后再往new_tbl_final表加索引（等吧）

说句题外话，分表不是真正的解决性能问题，维护或者需求有变动就带来各种麻烦。
简单几个字段的话，20亿放到一张表mysql也没问题啊，只要索引正确。
即便性能不行，也可以尝试下表分区，再不行就上pgsql，总会有办法的。

第二个问题：
当然是用lucene、sphinx这种全文引擎，便宜量又足。

a2z

2014-02-02 19:03:14 +08:00

@Livid
@rqrq
多谢各位

去重用的hadoop，单机单实例，12年中的macbook pro 16g内存 256G SSD，20亿数据，分成5个文本文件一共17g，hadoop sort+去重一共只用了一个半小时……

索引用了coreseek，建索引用了2.5小时，查找速度英文在0.05秒内，中英文混合0.5秒以内。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/98655

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.