有谁用过pymongo处理过大量数据的？进来看下啊

我要把几个collection中的数据整合到一个collection中，来用一种更友好的数据结构，
用下面的python代码，db.index中有11W条数据，查出来组合再存入，估算了一下，在我的本子上完成要两个小时，各位大神，难道是我的方法不对？有办法优化吗

from pymongo import MongoClient

connection=MongoClient()
db=connection['wordnet']

def domerge():
allindex=db.index.find({})
i=0
for indexitem in allindex:
word={}
word['word']=indexitem['word']
word['concept']=[]
for conceptitem in indexitem['concepts']:
concept={}
concept['num']=conceptitem
concept['synonyms']=db.synonyms.find_one({"concept":conceptitem})['synonymses']
concept['gloss']=db.gloss.find_one({"concept":conceptitem})['gloss_en']
word['concept'].append(concept)
db.mergedata.insert(word)
i=i+1
print i

if __name__ == '__main__':
domerge()

justfly

2013-01-23 15:24:07 +08:00

@cj1324 我觉得这方法肯定上不得台面，我去看看，mongo的mapreduce文档去了，若有具体做法还请不吝赐教哈谢了

lqs

2013-01-23 15:43:53 +08:00

如果 db.synonyms 和 db.gloss 不大，先查出来存个dict变量，这样就不用在每次for都来查这两个表。

另外mongodb的map-reduce只是一个用于公关宣传的功能。

justfly

2013-01-23 15:54:01 +08:00

@cj1324
mongodb的map-reduce文档我看了，适用于单个collection的统计，我要从多个collection拉数据组成新数据结构，貌似有点不适合。

@lqs
两个标各有8W左右数据，大约几M大小。如果存dict变量的话，我怎么查啊，有linq？

angeloce

2013-01-23 16:25:23 +08:00

@justfly

lqs 说的没错, 你这种n+1次查询是性能大忌.
16w 数据不多, 一般笔记本撑得住, 两个dict, conceptitem做key, synonymses 和 gloss_en 做value

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/58512

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.