手上有个舆情爬虫项目,需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历,查找了些资料,打算使用 scrapy_redis 分布式爬虫,数据库用 mongodb,还有在考虑用 hadoop 存储框架 这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下 爬虫框架和存储应该选择哪种更好
1
AntoniotheFuture 2021-01-07 14:31:30 +08:00
舆情爬虫有商业服务了,要不要考虑一下?
|
2
liwenbest OP @AntoniotheFuture 加我 QQ986636628 私聊
|
3
AntoniotheFuture 2021-01-07 14:49:17 +08:00
@liwenbest 我没有做,你百度一下有很多啊
|
4
Keyes 2021-01-07 14:55:03 +08:00
预算多少,买个现成的,卖两个人过去看着吧,我司舆情项目都 saas 化了,单一系统根本收不回成本
|
6
czfy 2021-01-07 15:00:48 +08:00 1
这种从 0 开始不太现实吧..数说故事 /明略 /秒针之类的都有解决方案
|
7
murmur 2021-01-07 15:05:35 +08:00
是真的要做还是要坑人钱,爬微博知乎就省省吧,贴吧那么多你爬哪里
|
12
smgui 2021-01-07 16:34:14 +08:00
可以试试这个,试过用 kafka 和 rabbitmq 作为队列爬了些网络小说:
https://github.com/Insutanto/scrapy-distributed 这些框架的源代码都很简单,完全可以自己造轮子。 |
14
tisswb 2021-01-12 10:28:25 +08:00
我几年前做过类似项目,用的是 scrapy_redis + elasticsearch 的组合,基本够用
|