Scrapy 的结果如何处理?

2015-01-19 20:50:30 +08:00
 caizixian
用Scrapy爬了一些数据,弄成了JSON。
接下来有搜索的需要。
JSON类似于
{"name":.....,"para1":.....,"para2":.....,}

需求就是模糊搜索name,输出para1,para2。
JSON文件大约300多MB,十几万行。
求高效的处理方式。

顺便问一下,用Python处理较大的JSON文件有什么好办法?还是说直接上C Binding?

Thx!
2385 次点击
所在节点    Python
6 条回复
linnchord
2015-01-19 21:11:09 +08:00
十几万行 放数据库不是挺好吗
caizixian
2015-01-19 21:54:13 +08:00
@Livid @binux 有什么建议吗?
tennix
2015-01-19 22:02:55 +08:00
这种 json 数据最适合放到文档数据库里了,比如 mongodb, mongo 的查询功能也算比较强大
binux
2015-01-19 22:10:48 +08:00
1、放内存
2、放数据库
3、放elasticsearch
yakczh
2015-01-19 22:48:50 +08:00
scrapy检测网站内容更新有什么好的方案?
Moker
2015-05-07 11:48:11 +08:00
我现在也存成了JSON 可是 存数据库老是出错...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/163602

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX