存储大量网页内容用什么数据库

2019-02-03 14:49:01 +08:00
 zarte

发觉之前的解决思路有问题,决定先爬取页面数据存入数据库,然后另外一个任务再一个页面一个页面分析内容提取数据。
存储字段包括地址来源网站,页面文字内容。 目前用 mysql 加 redis 用来 url 去重

2144 次点击
所在节点    问与答
9 条回复
GeekCourse
2019-02-03 14:56:08 +08:00
当然是直接存到硬盘里
jimages
2019-02-03 15:25:25 +08:00
存文件吧,mysql 做 index
yuikns
2019-02-03 15:32:35 +08:00
大量文件存在一个目录下有时有效率问题。试试 leveldb ?
lynskylate
2019-02-03 16:05:06 +08:00
...落硬盘怎么横向扩展,数据落 mongo, redis 去重。
CSM
2019-02-03 16:42:28 +08:00
如果 URL 非常多并且能容忍重复的话,可以考虑布隆过滤器。
nicoljiang
2019-02-04 02:55:50 +08:00
Mysql 不就可以吗,百万千万都能存。。。
lengyihan
2019-02-04 11:59:42 +08:00
oracle 肯定够。
lynskylate
2019-02-04 18:14:35 +08:00
@CSM 布隆不会出现重复,而是有部分未爬过的 url 会认为爬过。
CSM
2019-02-04 19:43:18 +08:00
@lynskylate 噢噢你说的对,感谢感谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/532833

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX