请教一下大数据 ETL 工具该如何选择。

2023-11-30 16:36:55 +08:00
 Chayebao

现在公司的 ETL ,用的是 mysql 存储过程+事件或其他调度工具,来实现 DWD,和 DWS 层的数据转化。因为现在需要处理的表开始多了起来,后续想使用更专业的 ETL 来统一管理和处理。请问现在比较主流的工具是什么,Kettle ? spark ? 再简单说一下情况:主站 A 的数据分别同步到 B ,C ,D 库,然后在 BCD 库处理数据,分别在自己的库里转为 DWD 和 DWS 层。

5291 次点击
所在节点    程序员
53 条回复
awen233333
2023-11-30 17:09:16 +08:00
kettle 不建议,我觉得不好用,速度慢 bug 多,老是报莫名其妙的错,数据量小还可以凑合用一下
ChenKeLiang
2023-11-30 17:13:29 +08:00
dataworks
EarthChild
2023-11-30 17:19:01 +08:00
@awen233333 #1 那你推荐啊!
EarthChild
2023-11-30 17:19:21 +08:00
@ChenKeLiang #2 不要阿里系的。
sss15
2023-11-30 17:19:51 +08:00
盲推一波 flink cdc
heyline
2023-11-30 17:23:57 +08:00
可以试试 airbyte + dbt 的方案
yngzij
2023-11-30 17:31:27 +08:00
datax 可以考虑一下
awen233333
2023-11-30 17:34:27 +08:00
@EarthChild 我推荐的就是你不想用的😂
dot2
2023-11-30 17:46:38 +08:00
dolphinscheduler
haimianbihdata
2023-11-30 17:57:48 +08:00
海豚调度。datax flink cdc
hengtong
2023-11-30 19:07:05 +08:00
蹲一个
hengtong
2023-11-30 19:07:31 +08:00
dataworks 挺好的 就是贵
ursash
2023-11-30 19:32:27 +08:00
dbt 考虑一下?
kkadmin
2023-11-30 20:02:30 +08:00
Doris/StarRocks + Dolphinscheduler
ctrlaltdeletel
2023-11-30 20:24:41 +08:00
G64q9J89mN5KSgmE
2023-11-30 21:57:38 +08:00
mysql select 同步的话,datax 还不错
bin 同步考虑 canal
如果不想用阿里的,自己用 python 写同步脚本,也很快
tyrantlucifer
2023-11-30 22:11:19 +08:00
火山引擎 DataLeap 开发套件可以了解一下
leonhao
2023-11-30 22:14:45 +08:00
开 binlog 最省心
dlmy
2023-12-01 01:27:01 +08:00
强烈推荐 FlinkCDC ,大数据项目每天处理 5 亿条数据,处理流程如下:ODS -> DWD -> DWM -> DWS -> ADS ,暂时没发现什么问题
iv8d
2023-12-01 08:17:08 +08:00
kettle

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/996575

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX