爬虫在运行时需要实时读取用户的配置参数,应该使用什么方法把用户配置发给运行中的爬虫呢?

2019-07-23 13:02:27 +08:00
 chuanqirenwu

场景是这样的: 一个爬虫,一个网站。 用户在网站中配置爬虫的参数,爬虫实时根据配置的参数决定其运行状态。

那么,如何将用户修改更新的参数反映到爬虫呢?

当前的做法是,爬虫执行新的一轮爬取前,读取用户配置的 rest api,通过 api 传递数据,但总感觉不优雅,也不是很方便。

是否又专门针对这种场景更好的方式呢?

1790 次点击
所在节点    Python
10 条回复
zkqiang
2019-07-23 14:21:31 +08:00
将最新配置实时通过 MQ 发送,爬虫开个线程消费 MQ
misaka19000
2019-07-23 14:23:27 +08:00
信号
Ehco1996
2019-07-23 16:06:55 +08:00
从 api 拉配置不是很常规的操作么?
我觉得爬虫没必要搞得多复杂

你要觉得不好
爬虫端再开一个线程接受配置的推送?
协议用 api/rpc 之类的都行
chuanqirenwu
2019-07-23 16:44:43 +08:00
@zkqiang 看了一下,觉得消息队列比较契合。
tikazyq
2019-07-23 17:19:52 +08:00
通过数据库来做,Crawlab 就是这么做的,将环境变量存入数据库中,爬虫去数据库中拿环境变量。

http://github.com/tikazyq/crawlab

新版的 crawlab 是用 golang 写的后台,还没发布,预先打个广告。
lihongjie0209
2019-07-23 17:47:43 +08:00
你需要的是配置中心(zookeeper 之类的), 别用消息队列
chuanqirenwu
2019-07-24 09:04:53 +08:00
@lihongjie0209 太重了吧,就是想在用户更新配置后发送给后端,感觉一个轻量级的后端足以应付?
chuanqirenwu
2019-07-24 09:07:33 +08:00
@tikazyq 好东西呀!刚好研究一下怎么用。体验了一下 demo,手机端的布局似乎有点问题?响应式不是很完美。element ui 应该能比较好地支持响应式吧
lihongjie0209
2019-07-24 09:11:00 +08:00
@chuanqirenwu #7 第一次听说 zookeeper 比 mq 重
tikazyq
2019-07-30 20:28:48 +08:00
@chuanqirenwu 手机布局现在还没有优化,只能暂时用 PC 来看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/585404

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX