Python 操作大文件更新 MongoDB 的操作

2017-04-04 15:52:51 +08:00
 linkbg

题目的表达可能有些问题。 情况是这样的: 现有已经存在大量数据的 MongoDB 集合,现在要添加一个新的字段,然后这样字段的值来自于一个 json 文件。不过这样文件特别大( 4.5G )在使用 Python 中 json 的 loads ()来操作会卡死,因为 12G 的内存更本弄不了。我还想过 split 来处理 json 文件,但是生成的文件太多,造成在遍历文件的时候卡主了。 至于为什么不用 MongoDB 自带的处理 json ,是因为 json 有些字段不需要。

不过我想想,目前要是能导入进去就可以了。

问题就是怎么去更新呢?

谢谢

2564 次点击
所在节点    Python
8 条回复
minvacai
2017-04-04 16:24:26 +08:00
这个不太懂,不过如果没有其它好办法的话能不能用 MongoDB 自带的先导入到一个临时库里再去掉不需要的部分?
hareandlion
2017-04-04 16:45:38 +08:00
使用游标读取数据,手动设置一次更新的数据条数,时间换空间,另外这种可以考虑一下协程或者多进程操作的吧?
golmic
2017-04-04 17:08:35 +08:00
你这问题应该和 mongodb 无关吧,主要问题是如何用 python 操作大的 json 文件读写数据
crayygy
2017-04-04 17:12:33 +08:00
之前遇到过类似的问题,从一个超大的文本文件倒入到数据库,比你这个还大, 10G 每个文件,本来用的 mongodb ,测了一次以后我转到 postgresql 去了……
oulongqi
2017-04-04 17:33:53 +08:00
MongoDB 有 aggregate pipeline / bulk 操作, up 可以查一查
wangxn
2017-04-04 17:40:13 +08:00
不生成文件对应的 JSON 对象,直接解析 .json 文件,使用正则表达式或者其他什么手段来提取数据。
billlee
2017-04-04 17:51:27 +08:00
你是说用 split(1) 处理?如果可以用分行处理,那也可以直接用 python 的 for line in file_object 来逐行处理啊
cxbig
2017-04-04 18:36:35 +08:00
既然 Python 都参与了,没有对数据做 pagination 么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/352448

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX