想利用爬虫做一个豆瓣小组发帖搜索引擎,讨论下可行性

2018-03-14 22:07:20 +08:00
 ke1vin

打算做一个针对豆瓣小组发帖内容的搜索引擎:定向一些热门活跃小组(八卦组,逼组还有你懂的),根据用户名称,标题 /内容和话题回复进行搜索,搜索结果的每一项需要包含:标题,内容概要以及话题的前几张图片(如果带有图片的话)。

初步设想是用 nodejs (或者 python )去定时爬数据,爬虫程序挂在云上,爬下来的数据包含图片都存在 MongoDB 里。因为豆瓣小组的 API 本身是开放的(详见 https://www.douban.com/group/topic/33507002/ )。

针对某个小组的话题列表,话题内容以及话题回复都是可以通过 API 获取到的。所以使用 API 爬数据而不是获取网页页面解析数据。

那么问题来了,跑这样一个程序需要多大内存以及硬盘空间?以上方案是否合理?第一次做爬虫程序,请指教。

3397 次点击
所在节点    问与答
6 条回复
ke1vin
2018-03-14 22:57:44 +08:00
come on
golmic
2018-03-14 23:04:10 +08:00
需要做的话我可以提供技术支持。我的联系方式公众号 pydatame 有
ke1vin
2018-03-15 10:18:52 +08:00
我在想如果一直跑爬虫的话总有一天硬盘会满
ke1vin
2018-03-15 10:18:58 +08:00
要怎么做
isolove
2018-03-16 04:13:12 +08:00
有这样的搜索引擎就好了,继续此物搜索发帖回帖记录
an93
2018-08-19 21:37:11 +08:00
楼主 这个搜索引擎你搞出来了吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/438109

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX