存储大量网页内容用什么数据库

2019-02-03 14:49:01 +08:00

zarte

发觉之前的解决思路有问题，决定先爬取页面数据存入数据库，然后另外一个任务再一个页面一个页面分析内容提取数据。
存储字段包括地址来源网站，页面文字内容。目前用 mysql 加 redis 用来 url 去重

2440 次点击

所在节点

9 条回复

GeekCourse

2019-02-03 14:56:08 +08:00

当然是直接存到硬盘里

jimages

2019-02-03 15:25:25 +08:00

存文件吧，mysql 做 index

yuikns

2019-02-03 15:32:35 +08:00

大量文件存在一个目录下有时有效率问题。试试 leveldb ？

lynskylate

2019-02-03 16:05:06 +08:00

...落硬盘怎么横向扩展，数据落 mongo, redis 去重。

CSM

2019-02-03 16:42:28 +08:00

如果 URL 非常多并且能容忍重复的话，可以考虑布隆过滤器。

nicoljiang

2019-02-04 02:55:50 +08:00

Mysql 不就可以吗，百万千万都能存。。。

lengyihan

2019-02-04 11:59:42 +08:00

oracle 肯定够。

lynskylate

2019-02-04 18:14:35 +08:00

@CSM 布隆不会出现重复，而是有部分未爬过的 url 会认为爬过。

CSM

2019-02-04 19:43:18 +08:00

@lynskylate 噢噢你说的对，感谢感谢

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.