请教一下大数据 ETL 工具该如何选择。

2023-11-30 16:36:55 +08:00
 Chayebao

现在公司的 ETL ,用的是 mysql 存储过程+事件或其他调度工具,来实现 DWD,和 DWS 层的数据转化。因为现在需要处理的表开始多了起来,后续想使用更专业的 ETL 来统一管理和处理。请问现在比较主流的工具是什么,Kettle ? spark ? 再简单说一下情况:主站 A 的数据分别同步到 B ,C ,D 库,然后在 BCD 库处理数据,分别在自己的库里转为 DWD 和 DWS 层。

5482 次点击
所在节点    程序员
53 条回复
mywowo
2023-12-01 10:23:11 +08:00
异类, 用的 kestra
Mindzy
2023-12-01 10:28:16 +08:00
SeaTunnel + DolphinScheduler + StarRocks(Doris)
yingqi1
2023-12-01 10:30:53 +08:00
@Chayebao 就一个人,不要搞那么复杂,向钱看齐就好了。学 DBT/dataops 。真的要弄实时同步,也不要采用 finkCDC 了,直接用链接服务这类的工具。
heyline
2023-12-01 10:32:16 +08:00
你可以去 airbyte 文档看一眼,运行 docker 体验一下,我没用过 airflow ,我稍微看了一下 airflow ,感觉 airbyte 更简单一些 @Chayebao
Chayebao
2023-12-01 10:34:04 +08:00
@yingqi1 flinkCDC 已经用上了,没法换了,现在要改进的是 ETL 。3 套从库的 ETL ,mysql 的存储过程都是一样的,每套都有 10 多张表,我想揉到一起管理
Chayebao
2023-12-01 10:34:30 +08:00
@heyline 好的 研究研究
haimianbihdata
2023-12-01 10:35:31 +08:00
@Chayebao etl 现在一般只是拉数据。。同步数据了。。。计算可以放到数据库里面做,sql 调度分层这样
Nich0la5
2023-12-01 11:23:11 +08:00
fine data link 挺好用,不过收费的
liushawn1999
2023-12-01 11:41:12 +08:00
逛了一大圈发现原来 kettle 居然是最低级的,那我培训班的老师还教,就离谱,看来市面上用的工具比培训班教的差别好大啊,你们说的这些我一个都不知道
smallpigzbl
2023-12-01 11:42:30 +08:00
@heyline +1 DBT 是真的强
woncode
2023-12-02 01:15:12 +08:00
蹲一个,我们买了帆软的 FineDataLink ,确实比之前的 kettle 好用一些,可以聚合异源数据输入、基于日子实时同步等。
x2ve
2023-12-11 14:42:39 +08:00
@liushawn1999 #49 也算是招聘的要求之一,有这个经验也不错;数据工作本质是 SQLboy ,大头是业务分析,有行业经验搞起数据来才能更快入手。
yb2313
189 天前
prefect 怎么样, 他官网说要比 airflow 更好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/996575

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX