dolphinscheduler 调度器大家有用过没

2022-05-08 02:04:47 +08:00
 leiuu

试用了一下,感觉设计欠缺很多,坑太多了😂 口号吹的很响亮...

2492 次点击
所在节点    程序员
11 条回复
liprais
2022-05-08 02:09:39 +08:00
他另外的两个 apache 项目也都是一泡污
kaichen
2022-05-08 08:24:31 +08:00
印象不好

- 自动化程度低,仅仅提供 vb 式拖拽界面
- 不够云原生,很多能力并不是通过依赖外部组合实现,而是基本自己实现,比如监控
- 外部集成能力差,没有插件系统,数据输出,监控等感觉是定制化写死
- 社区差,你几乎很难找到大量讨论
- 土土国企风,从界面排版字体,都感觉像十多年前的设计

建议有需要 etl 调度工具,用 airflow ,可编程,高度集成,社区繁荣
pengtdyd
2022-05-08 10:02:34 +08:00
国内开源的东西尽量不要用!!!
leiuu
2022-05-08 18:48:37 +08:00
@liprais 哪两个,大佬。

@kaichen 不能更同意。😂
很多功能不应该聚集在调度器身上,借助 grafana 等实现监控很容易。
3.0 还要加数据质量校验啥的,感觉更是跑偏了。
界面太丑了!
有更好的推荐没,例如想基于 k8s 搭建。


@pengtdyd 本来想支持一把国产,实在...哎
SbloodyS
2022-05-08 19:57:41 +08:00
DS 专注于大数据工作流调度,DQC(数据质量) 是数仓调度很重要的一个环节,各个厂的数仓只要对数据质量有一定要求的,或多或少都会对工作流调度进行数据质量监控,这是大势所趋
leiuu
2022-05-08 21:46:55 +08:00
@SbloodyS
谢谢。
作为一个非贡献者,只能嘴炮一下。
调研过一些时间,实际用发现坑挺多,挺失望,所以多说几句。
以下主要为了交流使用观点,非针对个人,无需挂心。

数据质量这些新模块可以加,这是社区的团队自己定的。

我寻思 DS 要是想发力可以试着下决心重做 UI &优化交互&去掉一些不必要的可视化、尝试拥抱云原生、代码化 workflow 、自动部署、完善文档、修修 bug 啥的。

举几个使用中发现的问题:
1. 设置 workflow crontab ,会弹出一个丑丑的界面,有些其实简单 UI 更容易理解和增加美观度...
2. 调用一个外部 shell 脚本并传入动态参数,找了很多文档没找到...,找到如何传参了但试用半天无法获取到值,最后发现是 workflow 参数自动将大写转为了小写
3. 任务状态统计、流程状态统计、工作流关系的可视化作用是负的
其他很多不一一列举。

夯实现有功能、提高品味,真的能让这个项目长足进步,加新功能对 PR 有作用,但对项目的实际口碑就...
对于数据领域来说,近几年能看到很多海豚的宣传,对有一个在这领域踏足的国产项目感到高兴,真心希望这个项目能变好。
SbloodyS
2022-05-08 22:08:22 +08:00
@leiuu
你提的问题确实都存在,我也遇到过更多其他类似的问题。


目前因为社区长期贡献者严重不足(据我所知长期的不足 10 个),一些非主流程的功能由一些新晋的贡献者贡献后,贡献者就不再维护了,这就产生了很多遗留问题...


我本身虽然是贡献者,同时也是用户,个人时间有限,用不到的功能也没过多去尝试并且修复...


目前我了解到的开源软件不论国内还是国外都存在着类似的问题,大多都依靠社区的贡献者们用爱发电,解决问题的关键是如何扩大社区长期贡献者的人数...
leiuu
2022-05-08 22:14:12 +08:00
@SbloodyS
10 人常驻 人手短缺的话能理解 海豚本身声量还是挺大的 希望可以变得更好 小 bug 后续有机会贡献一下
UI 那块爱莫能助 真心希望下决心重做...
SbloodyS
2022-05-08 22:25:23 +08:00
@leiuu
欢迎贡献,哈哈

前端的长期贡献者相比后端的更少,UI 体验的优化可能短期内不太可能有太大的改观

开源软件我理解都是没有十全十美的,想要使用体验更好更多还是需要自己动手丰衣足食,比如我正在使用的 Apache Ranger ,其中 Trino 350+ plugin 社区里很多人提了一年多了依旧没实现,最后还得自己来实现一个...
kaichen
2022-05-09 00:13:43 +08:00
@leiuu

贴一下我的 airflow 调研笔记,基本上如果是我来做技术选型肯定是 airflow + 对应 cloud 上 data tool

- [Apache Airflow Documentation — Airflow Documentation]( https://airflow.apache.org/docs/apache-airflow/stable/)
- [GitHub - apache/airflow: Apache Airflow - A platform to programmatically author, schedule, and monitor workflows]( https://github.com/apache/airflow)
- [社区支持]( https://airflow.apache.org/ecosystem/)非常好
- 有 [awesome list]( https://github.com/jghoman/awesome-apache-airflow),有很多讲述最佳实践的文章
- github 搜索超过 9000 相关仓库
- 云厂商支持好,如 [[Google Cloud]], [[Amazon]]
- 有书,有[开发者大会]( https://airflowsummit.org),有 Meetup ,有[播客]( https://www.astronomer.io/podcast/),有专门的 Youtube 频道,有 Udemy 上的培训课程
- 大量科技企业的选择,并且有创业项目围绕它做数据服务平台
- Twitter: [Productionizing ML with workflows at Twitter]( https://blog.twitter.com/engineering/en_us/topics/insights/2018/ml-workflows.html)
- [[Robinhood]]: [Why Robinhood uses Airflow. Robinhood relies on batch processing… | by Vineet Goel | Robinhood]( https://robinhood.engineering/why-robinhood-uses-airflow-aed13a9a90c8), [Upgrading & Scaling Airflow at Robinhood | by Abhishek Ray | Robinhood]( https://robinhood.engineering/upgrading-scaling-airflow-at-robinhood-5b625dfaa2ee)
- Gitlab: [dags · master · GitLab Data / GitLab Data Team · GitLab]( https://gitlab.com/gitlab-data/analytics/-/tree/master/dags)
leiuu
2022-05-09 12:57:10 +08:00
@kaichen
👍 整理的真不错,收藏了。airflow 界面好看,用代码维护 workflow 不错,文档也很全。
另外最近发现还有一个 argo workflow ,融合云原生更进一步。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/851487

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX