Python list 数组 4 千万个元素去重、处理

如题
主要问题：千万级别处理起来会不会崩溃？

主要是去重

谢谢

jdhao

2019-07-15 14:29:13 +08:00

自己做一个然后试一下不就知道了

yedanten

2019-07-15 14:31:24 +08:00

得看业务情况啊，不知道你后续的处理是要做哪些操作，否则只是去重，最简单粗暴的转换为 set 就完事了

shuax

2019-07-15 14:34:50 +08:00

推荐用 64 位 Python，加内存就是了。

lithiumii

2019-07-15 14:37:07 +08:00

list(set(li)
崩溃了就是你电脑不行！（滑稽

Takamine

2019-07-15 14:38:23 +08:00

既然都能打算一次性把 4000 个元素放到一个 list 里面操作，不如就直接再导入 Excel 去重:doge:。

chengxiao

2019-07-15 14:40:04 +08:00

这种建议直接上 MongoDB 然后设置索引唯一去重

nutting

2019-07-15 14:44:33 +08:00

内存里的操作怕啥，比数据库强多了，随便搞

ipwx

2019-07-15 14:45:54 +08:00

In [4]: N = 10**8

In [5]: arr = np.random.randint(0, N, size=N)

In [6]: len(arr)
Out[6]: 100000000

In [7]: %timeit set(arr)
36 s ± 122 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

给你一个时间作参考。。。

ytmsdy

2019-07-15 14:46:51 +08:00

先分段排序，然后去重。

v2mo

2019-07-15 14:47:07 +08:00

几千万的数据，一台电脑运行，有可行性吗？

wtks1

2019-07-15 14:47:35 +08:00

@Takamine excel 处理不了百万以上的行数吧

Universe

2019-07-15 14:48:32 +08:00

看精度要求，不高的话布隆过滤器可以一试

pcdRob

2019-07-15 14:48:41 +08:00

几千万而已洒洒水啦

fuxiuyin

2019-07-15 14:49:13 +08:00

首先，这 4 千万个元素肯定是要便利一遍的，除非你的数据有什么特殊的规律。
其次，要看这 4 千万存在哪，内存？文件？网络？
最后，如果没有优化空间不可避免的要对 4 千万数据过一遍那就看想优化内存还是想优化时间了，不过最快可能也就是楼上 8 楼给的。

mengzhuo

2019-07-15 14:52:16 +08:00

4 千万 uint32，最大也就 40M 搞定了…… O （ N ）操作而已

dji38838c

2019-07-15 14:53:53 +08:00

这样都不肯用 pandas 吗?

ruandao

2019-07-15 14:54:54 +08:00

布隆过滤器

ruandao

2019-07-15 14:55:57 +08:00

想了想，好像不需要

千万，也就 MB 级别吧

janxin

2019-07-15 14:58:06 +08:00

数据都不说一下怎么分情况处理。

这种统一建议 list(set(data))

Takamine

2019-07-15 14:59:45 +08:00

@wtks1 你也说了是行数，要是每个元素都写进去单个 cell 里面不就够啦。:doge:

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/583069

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.