celery 多节点是否适合代替多线程（线程池）

大家好，现在有个需求，我一个 fuzz 项目里有多个 module，每个 module 里会带上多个不同的脚本（ fuzz 脚本）。

原来是采用的是主入口通过 celery 调用多个 module，每个 module 采用线程池进行脚本调用，最后将线程池聚合的结果存入数据库（如 mysql ）。

但是后来遇到了瓶颈，某些脚本容易卡住比较长时间，拉高线程数速度也上不去。

所以我在想，有没有可能主控入口通过 celery 节点调用多个 module，然后每个 module 用 celery 节点调用多个脚本，这样能提高可扩展性，我只要增加节点，无论是加机器还是提高单个机器的配置，理论上就能加快整体速度。

本来线程池聚合数据还是蛮容易的，如果用多个 celery 节点调用多个脚本，我想到的只能用 redis push，最后再想法子把每一坨结果做数据聚合。

但是这又带来了新的问题，每一坨数据不知道啥时候完，如果某个 module 脚本比较多，我总不能监控每个脚本任务都监控吧，最后需要的是每个 module 跑完了的聚合结果，才能入库（如 mysql ）。

求大佬们指教，有没有啥办法，如果能解决 v 币感谢~

在线等，很急！

monsterxx03

2018-08-22 13:58:16 +08:00

不是很明白你的 module 指什么, 一个 python 的 module(带__init__.py)?

celery 调度的单位是 task, 我的理解你应该把每个 fuzz 脚本的入口处封装成一个 celery task, 所有的 worker 节点上预先放好所有的代码. 入口处只负责分发 task，同步等待 task 执行结果，就能在入口处汇总所有数据了.

如果脚本之间没有顺序依赖，只是想最后得到所有结果的话，我说的应该就够了, 有依赖关系可以看看上面说的 chord.

akmonde

2018-08-22 16:20:04 +08:00

@monsterxx03 大概了解了，我那边 module 的意思是，主程入口有多个函数，每个函数算是一个 module，会分别对一批脚本进行调用，也就是您说的 task 分发入口吧，以前做的都是只 task 分发这里的 module，然后每个 task 里面多线程跑脚本。
不过这样的话，节点不够多的话效果不一定比多线程强，因为多线程 20-30 稀松平常，如果两三台机器每个跑五六个节点好像还算正常？这样算下来，估计机器少的话，效果估计一般。
PS：忘了每个节点是不是可以跑同时多个 task，我记得貌似可以。

akmonde

2018-08-27 08:53:28 +08:00

@monsterxx03 前两天没看到您最后的回复，我自己看了下还是有点迷糊。您的意思是每个 task 里面是单独包含一个脚本么，然后再在配置好的 result backend 里面，通过异步标记然后最后通过标记汇总结果么，查了下好像没有合适的参考资料。

参考了下几篇文章，比如这篇，就是通过 id 查询的：
```
https://www.cnblogs.com/piperck/p/5391128.html
```

至于您此前说的，```入口处只负责分发 task，就能在入口处汇总所有数据```，我不太清楚您是否指的是每个 task 只运行一个脚本，然后再在入口处聚合。如果是这样的话，难道是拿到结果后手工聚合？
因为我看了下您这里举的例子，似乎只是 get 单个任务的结果，：
```
ret = task.delay()
ret.get()

```
因为我执行完这一批 task 需要有个信号，如果不是的话，您原本的意思是每个 task 会有多个脚本，然后还要用到多线程聚合后再返回该 task 以结果么？

鄙人比较笨，再次 v 币感谢下，希望能最后给予下解答，谢谢！

akmonde

2018-08-27 09:14:30 +08:00

@pekingzcc @monsterxx03
非常感谢两位，此前没有去仔细看 chord，光在这上面纠结了，很惭愧，现在应该能解决原来的问题了。
另外，参考了这篇文章：
```
https://blog.csdn.net/preyta/article/details/54313047
```
----------------
我想问问两位：
----------------
如果仍延续原来每个 task 里面，多线程跑多个脚本（或者循环之类的）。在每个 task 里面，再使用这篇文章里讲的 chunks - 将大量任务分解为小块任务，会不会加快速速度。
我知道每个 worker 可以同时跑多个 task，这个以前试过，只是有点好奇这样是否也可行。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/482075