mysql 数据同步 elasticsearch 方案

j1132888093

2023-03-08 14:05:50 +08:00

@newskillsget 先写 mysql ，再写 es ，失败就回滚 mysql 。如果是写完 es 再抛出异常的话，就要手动回滚 es 了，但是我们公司这种场景目前很少，还能 cover 住

potatowish

2023-03-08 14:14:14 +08:00

@changdy 第二个

fengpan567

2023-03-08 14:17:38 +08:00

canal 监听 binlog ，kafka 消费写入 es

noparking188

2023-03-08 14:34:37 +08:00

CDC 到队列，自己写程序或者 lambda 写 ES ，可行吗，是不是更简单一点？
我之前的公司是双写+重试，错了人肉纠正

BQsummer

2023-03-08 14:48:36 +08:00

前段时间调研过 doris 的数据同步:
canal 文档一坨屎, 很多参数得从源代码里找, 数据量大的话会有坑
flink cdc 开发最省事, 但是集群运维费事
debezium 中文文档为 0, flink cdc 最早的同步方式是通过它, 后来自己实现了一套
CloudCanal 是 starrocks 文档里推荐的, 国产, 还不开源, 不敢用
其实上云是最省力的方式

SoulSleep

2023-03-08 14:51:09 +08:00

@jiobanma #30 历史数据 canal 支持一次性迁移，类似 etl
@v2e0xAdmin2 #37 麻烦在哪儿呢？我们用 canal-admin 管理配置，指标暂时没输出到 grafana...监控主要关注业务异常，主要是稳定，基本上没出过问题

dabai0806

2023-03-08 15:00:47 +08:00

logstash 其实是可以配置秒级同步的(这也是我碰巧试出来的文档和网上文章都没看到有人提过)

线上几万条数据, 我配置的是 10 秒同步一次就是同步的时候 cpu 会上飙百分之 30 左右

配置参数
schedule => "*/10 * * * * *"

dabai0806

2023-03-08 15:02:51 +08:00

logstash 维护方便些同步数据的自由度也高写条查询 sql 就完事了, canal 就是个半成品, 难用的要死

lueluev

2023-03-08 15:09:08 +08:00

好熟悉的问题 flume 还有人用吗

fridaycatye

2023-03-08 15:36:24 +08:00

datax 可用，基于查询做同步，灵活

fishtocat

2023-03-08 17:56:52 +08:00

学习了，我们现在是基于 canal 自己实现的 golang 客户端消费更新信息

F281M6Dh8DXpD1g2

2023-03-08 17:57:50 +08:00

flink-cdc 开 ckpt 完事

ufo5260987423

2023-03-08 18:00:16 +08:00

我不知道您为啥说 logstash 效率低，不论是全量更新还是增量更新，效率都还不错。我处理过的专利数据大概几百个 G ，都能在可接受时间内完成任务。

如果需要实时更新，那么在事物里面同步操作 es 就好了。
可能我了解的还不够多，请您指正。

ffkjjj

2023-03-08 18:02:55 +08:00

debezium

awalkingman

2023-03-08 18:08:47 +08:00

@j1132888093 人工补偿兜底，很真实了。巧妙的人工介入能极大地降低系统复杂度，谓之四两拨千斤。

v2e0xAdmin2

2023-03-08 18:11:39 +08:00

@SoulSleep 加机器麻烦

zhangxudong

2023-03-08 18:34:21 +08:00

可以试试阿里云 DTS 原班人马搞的 cloudcanal

HunterPan

2023-03-08 19:13:18 +08:00

datax

vgbhfive

2023-03-08 19:33:23 +08:00

datax 可以考虑下

GopherDaily

2023-03-08 19:53:58 +08:00

kafka connect, 如果你们已经有 kafka 的话，
debezium + es sink 吧