我想维护一个大型字典，有没有什么省内存的方法

2021-05-23 16:45:49 +08:00

Phishion

字典大概是下面这样的结构，我粗跑了一下，大概 100W 条数据，占用 400M 内存

{'dn0pFVBjQGwRYKCO2Ix45ibo6r9kW3Zedn0pFVBjQGwRYKCO2Ix45ibo6r9kW3Ze': 1, 'XuYRUn50f7j9zG2k8EZvoaWmeAdqTVrQXuYRUn50f7j9zG2k8EZvoaWmeAdqTVrQ': 2, 
....
't2n9wLoU53ql4hPMHi7pFaIEkCRxNuf0t2n9wLoU53ql4hPMHi7pFaIEkCRxNuf0',1000000}

有没有方法能大幅度减少内存的占用？

8909 次点击

所在节点

Python

50 条回复

ZhangZisu

2021-05-23 16:56:46 +08:00

理论只要 (64+4)*1000000/1024/1024~=64M
考虑直接 c 手写 trie 实现。若为 base64，前 2 位建树，挂链表。时间复杂度 O(64)，占用空间比 64m 大个 2m （ 64*64*64*8/1024/1024 ）

Phishion

2021-05-23 16:59:16 +08:00

@ZhangZisu 有点高级，有适合新手的什么经过优化的包之类的么？大概 100 多 M 我就非常能接受了

ZhangZisu

2021-05-23 17:12:57 +08:00

@ZhangZisu 说错了，应该是用前三个字符建树，复杂度是 O(64*3)(平均链表长度为 3 ）。

不过直接用 C++的 hashmap 应该就够了。（或者 map ）

或者直接上 redis

yuelang85

2021-05-23 17:23:28 +08:00

上 redis，用 redis 的字典功能

Phishion

2021-05-23 17:25:37 +08:00

@yuelang85 我就为这事儿跑一个 redis 感觉划不来啊，这东西本身也有资源开销吧？

ZhangZisu

2021-05-23 17:39:43 +08:00

直接用 stl 就够了。

C++ unordered_map: 150MB
C++ map: 155MB
```cpp
std::unordered_map<std::string, int> hmap;
// std::map<std::string, int> hmap;

const char *charset = "1234567890abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ+=";

int main()
{
for (int i = 0; i < 1000000; i++)
{
std::string str;
for (int j = 0; j < 64; j++)
str += charset[(int)(1. * rand() / RAND_MAX * 64)];
int val = rand();
hmap[str] = val;
}
int mem = getValue();
printf("Total memory in KB: %d\n", mem);
return 0;
}

```

yuelang85

2021-05-23 17:40:39 +08:00

@Phishion 确实是有资源开销，你可以先开一个大点儿的 redis，看看你的这些数据占用多少内存，然后再把 redis 库上限改小。

可以对比下二者哪个合适。我以前 python 维护过大的多层级 dict，占用内存很多的，不知道你这个一层结构会怎样。

python 的字典维护的不是单纯的数据，而是对象。python 所有数据类型都是对象

kxjhlele

2021-05-23 17:40:41 +08:00

要是我的话直接用 map，字典又不需要频繁更新，用 kv 有点浪费

BiggerLonger

2021-05-23 17:42:52 +08:00

尝试一下 nametuple 或者 data class, 应该能缩减个两三倍()

crclz

2021-05-23 17:57:44 +08:00

关系型数据库

yuelang85

2021-05-23 18:00:58 +08:00

@Phishion 哦哦，抱歉，我看到你说字典，就默认认为是 python 下了。

ericls

2021-05-23 18:02:36 +08:00

拿时间换存个 list 就 8M ？

ericls

2021-05-23 18:02:57 +08:00

no1xsyzy

2021-05-23 18:04:55 +08:00

写 C 扩展拿时间换，每次都额外进行一次 PyString -> c_string 的解包和 int -> PyInt 的回流。
优化到语言提供的基础类型就行了，再大就是各种数据库

DevRoss

2021-05-23 18:06:29 +08:00

lmdb

cmdOptionKana

2021-05-23 18:10:29 +08:00

sqlite yyds

love

2021-05-23 18:10:48 +08:00

字串比较长啊，可以用压缩技术压一下会省很多了

yangyaofei

2021-05-23 20:01:55 +08:00

输出是数字? 直接写个神经网络训练一下呢?

eason1874

2021-05-23 20:18:52 +08:00

用时间换空间+1，内存放不下干脆不放了，就用文件。如果可以分冷热就把热的部分放内存。

rrfeng

2021-05-23 20:26:43 +08:00

只能 trie 了，如果生成后没有修改只有查询，可以试试 slimtrie，可能是最省空间的了。

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/778691

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.