Python 操作大文件更新 MongoDB 的操作

2017-04-04 15:52:51 +08:00

linkbg

题目的表达可能有些问题。情况是这样的：现有已经存在大量数据的 MongoDB 集合，现在要添加一个新的字段，然后这样字段的值来自于一个 json 文件。不过这样文件特别大（ 4.5G ）在使用 Python 中 json 的 loads （）来操作会卡死，因为 12G 的内存更本弄不了。我还想过 split 来处理 json 文件，但是生成的文件太多，造成在遍历文件的时候卡主了。至于为什么不用 MongoDB 自带的处理 json ，是因为 json 有些字段不需要。

不过我想想，目前要是能导入进去就可以了。

问题就是怎么去更新呢？

谢谢

2846 次点击

所在节点

Python

8 条回复

minvacai

2017-04-04 16:24:26 +08:00

这个不太懂，不过如果没有其它好办法的话能不能用 MongoDB 自带的先导入到一个临时库里再去掉不需要的部分？

hareandlion

2017-04-04 16:45:38 +08:00

使用游标读取数据，手动设置一次更新的数据条数，时间换空间，另外这种可以考虑一下协程或者多进程操作的吧？

golmic

2017-04-04 17:08:35 +08:00

你这问题应该和 mongodb 无关吧，主要问题是如何用 python 操作大的 json 文件读写数据

crayygy

2017-04-04 17:12:33 +08:00

之前遇到过类似的问题，从一个超大的文本文件倒入到数据库，比你这个还大， 10G 每个文件，本来用的 mongodb ，测了一次以后我转到 postgresql 去了……

oulongqi

2017-04-04 17:33:53 +08:00

MongoDB 有 aggregate pipeline / bulk 操作, up 可以查一查

wangxn

2017-04-04 17:40:13 +08:00

不生成文件对应的 JSON 对象，直接解析 .json 文件，使用正则表达式或者其他什么手段来提取数据。

billlee

2017-04-04 17:51:27 +08:00

你是说用 split(1) 处理？如果可以用分行处理，那也可以直接用 python 的 for line in file_object 来逐行处理啊

cxbig

2017-04-04 18:36:35 +08:00

既然 Python 都参与了，没有对数据做 pagination 么？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/352448

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.