Python list 数组 4 千万个元素去重、处理

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2327 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题
主要问题：千万级别处理起来会不会崩溃？

主要是去重

谢谢

Python

List

处理

崩溃

42 条回复

jdhao

2019-07-15 14:29:13 +08:00 via Android

自己做一个然后试一下不就知道了

yedanten

2019-07-15 14:31:24 +08:00 via Android

得看业务情况啊，不知道你后续的处理是要做哪些操作，否则只是去重，最简单粗暴的转换为 set 就完事了

momo1999

2019-07-15 14:34:50 +08:00

推荐用 64 位 Python，加内存就是了。

lithiumii

2019-07-15 14:37:07 +08:00

list(set(li)
崩溃了就是你电脑不行！（滑稽

Takamine

2019-07-15 14:38:23 +08:00

既然都能打算一次性把 4000 个元素放到一个 list 里面操作，不如就直接再导入 Excel 去重:doge:。

chengxiao

2019-07-15 14:40:04 +08:00

这种建议直接上 MongoDB 然后设置索引唯一去重

nutting

2019-07-15 14:44:33 +08:00

内存里的操作怕啥，比数据库强多了，随便搞

ipwx

2019-07-15 14:45:54 +08:00

In [4]: N = 10**8

In [5]: arr = np.random.randint(0, N, size=N)

In [6]: len(arr)
Out[6]: 100000000

In [7]: %timeit set(arr)
36 s ± 122 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

给你一个时间作参考。。。

ytmsdy

2019-07-15 14:46:51 +08:00

先分段排序，然后去重。

v2mo

2019-07-15 14:47:07 +08:00

几千万的数据，一台电脑运行，有可行性吗？

wtks1

2019-07-15 14:47:35 +08:00 via Android

@Takamine excel 处理不了百万以上的行数吧

Universe

2019-07-15 14:48:32 +08:00 via Android

看精度要求，不高的话布隆过滤器可以一试

pcdRob

2019-07-15 14:48:41 +08:00

几千万而已洒洒水啦

fuxiuyin

2019-07-15 14:49:13 +08:00

首先，这 4 千万个元素肯定是要便利一遍的，除非你的数据有什么特殊的规律。
其次，要看这 4 千万存在哪，内存？文件？网络？
最后，如果没有优化空间不可避免的要对 4 千万数据过一遍那就看想优化内存还是想优化时间了，不过最快可能也就是楼上 8 楼给的。

mengzhuo

2019-07-15 14:52:16 +08:00

4 千万 uint32，最大也就 40M 搞定了…… O （ N ）操作而已

dji38838c

2019-07-15 14:53:53 +08:00

这样都不肯用 pandas 吗?

ruandao

2019-07-15 14:54:54 +08:00

布隆过滤器

ruandao

2019-07-15 14:55:57 +08:00

想了想，好像不需要

千万，也就 MB 级别吧

janxin

2019-07-15 14:58:06 +08:00

数据都不说一下怎么分情况处理。

这种统一建议 list(set(data))

Takamine

2019-07-15 14:59:45 +08:00

@wtks1 你也说了是行数，要是每个元素都写进去单个 cell 里面不就够啦。:doge:

misaka19000

2019-07-15 15:04:46 +08:00

不是，你也说一下你每条数据多大啊，每条数据 1kb 和每条数据 10mb 当然不一样

vincenttone

2019-07-15 15:17:08 +08:00

既然 4 千万个元素能放进数组里，说明你内存就够用，去重就是了，就看算法对内存的使用和耗费的 cpu 时间了。

flyingghost

2019-07-15 15:27:00 +08:00

4kw 个 int，160M，可以直接放内存。
设计一个分布尽可能均匀的散列函数（这一步不太确定我不是搞数学的。瞎拍一个 md5(obj)//4kw 的算法不知道效果怎么样？）
遍历每个 obj 求 hash，把 obj 的 index 放在对应的桶里。
如果桶里已有元素（ hash 冲突），单独放在另一个冲突列表里。
对于冲突列表里的每个冲突 hash，遍历并精确对比每个 obj，从源数据集删除完全相同的 obj。

稍微注意一下 getObj(index)的 O(1)复杂度，理论上可以应对任意量的数据了。