舆情爬虫项目框架及存储选择

手上有个舆情爬虫项目，需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历，查找了些资料，打算使用 scrapy_redis 分布式爬虫，数据库用 mongodb，还有在考虑用 hadoop 存储框架这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下爬虫框架和存储应该选择哪种更好

AntoniotheFuture

2021 年 1 月 7 日

舆情爬虫有商业服务了，要不要考虑一下？

Keyes

2021 年 1 月 7 日

预算多少，买个现成的，卖两个人过去看着吧，我司舆情项目都 saas 化了，单一系统根本收不回成本

jr55475f112iz2tu

2021 年 1 月 7 日

这种从 0 开始不太现实吧..数说故事 /明略 /秒针之类的都有解决方案

murmur

2021 年 1 月 7 日

是真的要做还是要坑人钱，爬微博知乎就省省吧，贴吧那么多你爬哪里

liwenbest

2021 年 1 月 7 日

@Keyes 公司接了个舆情项目要开发的开发周期一年要自己搞了

smgui

2021 年 1 月 7 日

可以试试这个，试过用 kafka 和 rabbitmq 作为队列爬了些网络小说：
https://github.com/Insutanto/scrapy-distributed
这些框架的源代码都很简单，完全可以自己造轮子。

tisswb

2021 年 1 月 12 日

我几年前做过类似项目，用的是 scrapy_redis + elasticsearch 的组合，基本够用

liwenbest

2021 年 1 月 14 日

@tisswb 我目前也是 scrapy_redis 但是存储用 mongodb

tisswb

2021 年 1 月 18 日

@liwenbest 用 es 的好处就是索引分词统计功能全面，可以省不少功能开发量

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/742545

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.