现在常用的数据同步方案有哪些?

2022-12-23 16:15:34 +08:00
 grittiness

最近工作遇到了一个需求需要设计一个类似通用的数据汇集平台,需要把用户配置的数据源(主要是 Oracle 和 MySQL )中的表以全量和定时增量的方式同步到本平台的数据库

目标数据源的表多的可能上亿条数据,同时平台需要向用户体现当前的同步任务进行的状态,主要是已同步的数据条数、本次同步新增数量、修改数量以及任务的完成情况这些的

由于本人对这大批量的数据没什么经验,目前想到的方式: 自己写代码用变更时间作增量字段来查询插入;这种方式的问题是全量同步时我该如何确认每次查询批次的数据条目数量不能太多,防止数据库压力太大或者 JVM 内存溢出?用数据库 limit 或者 rownum 来确认数量的话在千万或上亿的表中随着数量变大速度会越来越慢,感觉不是一个很好的方式。

思考了一下一时半会找不到合适的方式,所以来请教下 v2er 指点下有没合适的解决方案😂 感谢

1626 次点击
所在节点    数据库
9 条回复
kangkkk
2022-12-23 16:21:12 +08:00
目前公司用 datax 、Streamsets ,Streamsets 比较高级,可视化界面操作,贼牛逼。
perfectlife
2022-12-23 16:33:32 +08:00
在用 cloundcanal ,同步数据到数仓挺好用的,愿意花钱用 dts 也行,云厂商兜底。
xwayway
2022-12-23 16:40:33 +08:00
只说个人用过的,
1. 如果实时性要求不高 Kettle 定时同步增量就行,可视化界面配置取数 sql + 批处理任务就行;
2. 如果实时性要求高,可以采取 binlog 订阅 + 程序处理的方式,canal
suixn
2022-12-23 16:46:49 +08:00
seatunnel
howfree
2022-12-23 17:18:11 +08:00
canal+mq
ianEros
2022-12-23 17:23:42 +08:00
canal
YogaX
2022-12-23 17:24:27 +08:00
flink cdc
orczhou
2022-12-29 16:43:40 +08:00
算是利益极其相关吧:有个 NineData 的公司,专门做多云的数据同步。可以考虑一下。
andytao
2023-01-02 14:26:46 +08:00
利益相关: [袋鼠数据库工具] 正准备支持同构、异构数据库同步方案。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/904325

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX