2 个 exlcel 千万条手机号，怎么合并去重呢？

2021-05-02 22:24:46 +08:00

jry

用 mysql 、es 、mongodb 、其它哪一种合适？

2642 次点击

所在节点

问与答

15 条回复

heyjei

2021-05-02 22:32:36 +08:00

linux 命令中的 sort | uniq 是最简单的方案。如果是 Windows，安装了 git bash，应该附带了这两个命令

wellsc

2021-05-02 22:36:14 +08:00

一楼审题了吗

koast

2021-05-02 23:11:36 +08:00

其实一楼没毛病啊，只要打开这两个 excel，文件，导出为 csv，然后 sort|uniq 就行了，无非就是多等一会的事情。几乎不需要考虑什么...

inhd

2021-05-03 00:07:18 +08:00

https://i.loli.net/2021/05/03/g85bIWQO7NkAcKD.png

Baboonowen

2021-05-03 00:22:53 +08:00

Excel 自带去重。。一键去重。。

dzdh

2021-05-03 00:31:59 +08:00

需要经常使用，找个数据库。
就用一次，145 楼都可

jr55475f112iz2tu

2021-05-03 00:38:18 +08:00

我好奇这千万条手机号是哪里来的

HankLu

2021-05-03 00:43:54 +08:00

@czfy 你懂得

xupefei

2021-05-03 01:17:22 +08:00

Sort uniq 性能肯定不如直接去重啊。
你这数据量随便写个脚本用 hashmap 跑一遍就行了，不需要数据库。

renmu123

2021-05-03 07:59:15 +08:00

然后发现最大的问题是从 xlsx 读取这个千万条数据

matrix67

2021-05-03 09:01:52 +08:00

@koast #3 对一楼没毛病，二楼是要导出都写在步骤里

@czfy #7 社工库？黑产警告！！

8e47e42

2021-05-03 11:09:35 +08:00

@xupefei sort | unique = O(n log n)
Hash 最差可能是 O(n^2)最好可能是 O(n)
sort 的内存占用远好于 hashmap
因此不一定 hash 更优

drawstar

2021-05-04 07:17:11 +08:00

@Baboonowen 千万条的 excel 估计打不开吧

jry

2021-05-04 20:27:54 +08:00

还要得到新旧合并、新旧合并不含重复，重复，三分数据。

BQsummer

2021-05-08 18:02:09 +08:00

看标题我还以为是算法题呢，用 bitmap 处理[doge]

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/774683

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.