请教一下大数据 ETL 工具该如何选择。

160 天前
 Chayebao

现在公司的 ETL ,用的是 mysql 存储过程+事件或其他调度工具,来实现 DWD,和 DWS 层的数据转化。因为现在需要处理的表开始多了起来,后续想使用更专业的 ETL 来统一管理和处理。请问现在比较主流的工具是什么,Kettle ? spark ? 再简单说一下情况:主站 A 的数据分别同步到 B ,C ,D 库,然后在 BCD 库处理数据,分别在自己的库里转为 DWD 和 DWS 层。

3100 次点击
所在节点    程序员
52 条回复
awen233333
160 天前
kettle 不建议,我觉得不好用,速度慢 bug 多,老是报莫名其妙的错,数据量小还可以凑合用一下
ChenKeLiang
160 天前
dataworks
EarthChild
160 天前
@awen233333 #1 那你推荐啊!
EarthChild
160 天前
@ChenKeLiang #2 不要阿里系的。
sss15
160 天前
盲推一波 flink cdc
heyline
160 天前
可以试试 airbyte + dbt 的方案
yngzij
160 天前
datax 可以考虑一下
awen233333
160 天前
@EarthChild 我推荐的就是你不想用的😂
dot2
160 天前
dolphinscheduler
haimianbihdata
160 天前
海豚调度。datax flink cdc
hengtong
160 天前
蹲一个
hengtong
160 天前
dataworks 挺好的 就是贵
ursash
160 天前
dbt 考虑一下?
kkadmin
160 天前
Doris/StarRocks + Dolphinscheduler
ctrlaltdeletel
160 天前
ddkk1112
160 天前
mysql select 同步的话,datax 还不错
bin 同步考虑 canal
如果不想用阿里的,自己用 python 写同步脚本,也很快
tyrantlucifer
160 天前
火山引擎 DataLeap 开发套件可以了解一下
leonhao
160 天前
开 binlog 最省心
dlmy
160 天前
强烈推荐 FlinkCDC ,大数据项目每天处理 5 亿条数据,处理流程如下:ODS -> DWD -> DWM -> DWS -> ADS ,暂时没发现什么问题
iv8d
159 天前
kettle

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/996575

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX