用 Go 轻松完成一个 TCC 分布式事务,保姆级教程

2021-08-09 09:50:49 +08:00
 dongfuye1

什么是 TCC,TCC 是 Try 、Confirm 、Cancel 三个词语的缩写,最早是由 Pat Helland 于 2007 年发表的一篇名为《 Life beyond Distributed Transactions:an Apostate’s Opinion 》的论文提出。

TCC 组成

TCC 分为 3 个阶段

TCC 分布式事务里,有 3 个角色,与经典的 XA 分布式事务一样:

如果我们要进行一个类似于银行跨行转账的业务,转出( TransOut )和转入( TransIn )分别在不同的微服务里,一个成功完成的 TCC 事务典型的时序图如下:

TCC 网络异常

TCC 在整个全局事务的过程中,可能发生各类网络异常情况,典型的是空回滚、幂等、悬挂,由于 TCC 的异常情况,和 SAGA 、可靠消息等事务模式有相近的地方,因此我们把所有异常的解决方案统统放在这篇文章《还被分布式事务的网络异常困扰吗?一个函数调用帮你搞定它》进行讲解

TCC 实践

对于前面的跨行转账操作,最简单的做法是,在 Try 阶段调整余额,在 Cancel 阶段反向调整余额,Confirm 阶段则空操作。这么做带来的问题是,如果 A 扣款成功,金额转入 B 失败,最后回滚,把 A 的余额调整为初始值。在这个过程中如果 A 发现自己的余额被扣减了,但是收款方 B 迟迟没有收到余额,那么会对 A 造成困扰。

更好的做法是,Try 阶段冻结 A 转账的金额,Confirm 进行实际的扣款,Cancel 进行资金解冻,这样用户在任何一个阶段,看到的数据都是清晰明了的。

下面我们进行一个 TCC 事务的具体开发

目前可用于 TCC 的开源框架,主要为 Java 语言,其中以 seata 为代表。我们的例子采用 go 语言,使用的分布式事务框架为https://github.com/yedf/dtm,它对分布式事务的支持非常优雅。下面来详细讲解 TCC 的组成

我们首先创建两张表,一张是用户余额表,一张是冻结资金表,建表语句如下:

CREATE TABLE dtm_busi.`user_account` (
  `id` int(11) AUTO_INCREMENT PRIMARY KEY,
  `user_id` int(11) not NULL UNIQUE ,
  `balance` decimal(10,2) NOT NULL DEFAULT '0.00',
  `create_time` datetime DEFAULT now(),
  `update_time` datetime DEFAULT now()
);

CREATE TABLE dtm_busi.`user_account_trading` (
  `id` int(11) AUTO_INCREMENT PRIMARY KEY,
  `user_id` int(11) not NULL UNIQUE ,
  `trading_balance` decimal(10,2) NOT NULL DEFAULT '0.00',
  `create_time` datetime DEFAULT now(),
  `update_time` datetime DEFAULT now()
);

trading 表中,trading_balance 记录正在交易的金额。

我们先编写核心代码,冻结 /解冻资金操作,会检查约束 balance+trading_balance >= 0,如果约束不成立,执行失败

func adjustTrading(uid int, amount int) (interface{}, error) {
  幂等、悬挂处理
  dbr := sdb.Exec("update dtm_busi.user_account_trading t join dtm_busi.user_account a on t.user_id=a.user_id and t.user_id=? set t.trading_balance=t.trading_balance + ? where a.balance + t.trading_balance + ? >= 0", uid, amount, amount)
  if dbr.Error == nil && dbr.RowsAffected == 0 { // 如果余额不足,返回错误
    return nil, fmt.Errorf("update error, balance not enough")
  }
  其他情况检查及处理
}

然后是调整余额

func adjustBalance(uid int, amount int) (ret interface{}, rerr error) {
  幂等、悬挂处理
  这里略去进行相关的事务处理,包括开启事务,以及在 defer 中处理提交或回滚
  // 将原先冻结的资金记录解冻
  dbr := db.Exec("update dtm_busi.user_account_trading t join dtm_busi.user_account a on t.user_id=a.user_id and t.user_id=? set t.trading_balance=t.trading_balance + ?", uid, -amount)
  if dbr.Error == nil && dbr.RowsAffected == 1 { // 解冻成功
    // 调整金额
    dbr = db.Exec("update dtm_busi.user_account set balance=balance+? where user_id=?", amount, uid)
  }
  其他情况检查及处理
}

下面我们来编写具体的 Try/Confirm/Cancel 的处理函数

RegisterPost(app, "/api/TransInTry", func (c *gin.Context) (interface{}, error) {
  return adjustTrading(1, reqFrom(c).Amount)
})
RegisterPost(app, "/api/TransInConfirm", func TransInConfirm(c *gin.Context) (interface{}, error) {
  return adjustBalance(1, reqFrom(c).Amount)
})
RegisterPost(app, "/api/TransInCancel", func TransInCancel(c *gin.Context) (interface{}, error) {
  return adjustTrading(1, -reqFrom(c).Amount)
})

RegisterPost(app, "/api/TransOutTry", func TransOutTry(c *gin.Context) (interface{}, error) {
  return adjustTrading(2, -reqFrom(c).Amount)
})
RegisterPost(app, "/api/TransOutConfirm", func TransInConfirm(c *gin.Context) (interface{}, error) {
  return adjustBalance(2, -reqFrom(c).Amount)
})
RegisterPost(app, "/api/TransOutCancel", func TransInCancel(c *gin.Context) (interface{}, error) {
  return adjustTrading(2, reqFrom(c).Amount)
})

到此各个子事务的处理函数已经 OK 了,然后是开启 TCC 事务,进行分支调用

// TccGlobalTransaction 会开启一个全局事务
_, err := dtmcli.TccGlobalTransaction(DtmServer, func(tcc *dtmcli.Tcc) (rerr error) {
  // CallBranch 会将事务分支的 Confirm/Cancel 注册到全局事务上,然后直接调用 Try
  res1, rerr := tcc.CallBranch(&TransReq{Amount: 30}, host+"/api/TransOutTry", host+"/api/TransOutConfirm", host+"/api/TransOutRevert"
  进行错误检查,以及其他逻辑
  res2, rerr := tcc.CallBranch(&TransReq{Amount: 30}, host+"/api/TransInTry", host+"/api/TransInConfirm", host+"/api/TransInRevert")
  进行错误检查,有任何错误,返回错误,回滚交易
  // 如果没有错误,函数正常返回后,全局事务会提交,TM 会调用各个事务分支的 Confirm,完成整个事务
})

至此,一个完整的 TCC 分布式事务编写完成。

如果您想要完整运行一个成功的示例,那么按照 dtm 项目的说明搭建好环境之后,运行下面命令运行 tcc 的例子即可

go run app/main.go tcc_barrier

TCC 的回滚

假如银行将金额准备转入用户 2 时,发现用户 2 的账户异常,返回失败,会怎么样?我们修改代码,模拟这种情况:

RegisterPost(app, "/api/TransInTry", func (c *gin.Context) (interface{}, error) {
  return gin.H{"dtm_result":"FAILURE"}, nil
})

这是事务失败交互的时序图

这个跟成功的 TCC 差别就在于,当某个子事务返回失败后,后续就回滚全局事务,调用各个子事务的 Cancel 操作,保证全局事务全部回滚。

小结

在这篇文章里,我们介绍了 TCC 的理论知识,也通过一个例子,完整给出了编写一个 TCC 事务的过程,涵盖了正常成功完成,以及成功回滚的情况。相信读者通过这边文章,对 TCC 已经有了深入的理解。

关于分布式事务中需要处理的幂等、悬挂、空补偿,请参考另一篇文章:分布式事务你不能不知的坑,一个函数调用帮你搞定它

关于分布式事务更多更全面的知识,请参考分布式事务最经典的七种解决方案

文中使用的例子节选自yedf/dtm,支持多种事务模式:TCC 、SAGA 、XA 、事务消息 跨语言支持,已支持 golang 、python 、PHP 、nodejs 等语言的客户端。提供子事务屏障功能,优雅解决幂等、悬挂、空补偿等问题。 ​ 阅读完此篇干货,欢迎大家访问https://github.com/yedf/dtm项目,给颗星星支持!

8024 次点击
所在节点    推广
21 条回复
wuqingdzx
2021-08-09 10:20:26 +08:00
干货了
we8105
2021-08-09 10:21:21 +08:00
make
yRebelHero
2021-08-09 10:33:48 +08:00
干货了,谢谢楼主,收藏一波。
zhangfeiwudi
2021-08-09 11:46:16 +08:00
make
halweg
2021-08-09 12:16:28 +08:00
谢谢
Rwing
2021-08-09 12:30:27 +08:00
不错,不过这跟哪个语言关系不大吧 😂
waibunleung
2021-08-09 13:52:55 +08:00
@zhangfeiwudi
@we8105
make = mark ?
LoNeFong
2021-08-09 14:52:30 +08:00
@waibunleung 应该是, 看得我一愣一愣的
zhangfeiwudi
2021-08-09 17:39:12 +08:00
@waibunleung 哈哈 是 mark 我要按回车的时候才反应过来,不过无所谓了 大家都能看懂
Euthpic
2021-08-10 08:59:19 +08:00
点赞收藏退出一气呵成
sunmoon1983
2021-08-10 23:14:18 +08:00
@halweg 卧槽,头像好评
dongfuye1
2021-08-11 07:46:14 +08:00
@Rwing 跟语言的关系不太大,但也需要各个语言提供简单的 SDK 。目前 dtm 已经支持 python 、php 、csharp 、nodejs 等多个语言
Rwing
2021-08-11 10:01:14 +08:00
@dongfuye1 感动,竟然支持 csharp
bthulu
2021-08-19 09:00:51 +08:00
Cancel 失败了怎么办呢, 要不要无限重试 cancel?
无限重试过程中容器挂了重启后, 怎么保留挂之前的重试 cancel 呢, 是不是还要找个地方持久化 cancel 呢? 万一这个持久化 cancel 也失败了呢, 怎么办呢?
dongfuye1
2021-08-19 10:06:23 +08:00
@bthulu confirm 和 cancel 如果没有返回成功,都是无限重试的。
时序图里面注册分支时,就已经把 confirm|cancel 持久化到数据库了,如果当时持久化失败,当时这个 tcc 事务就返回失败了
heww
2021-08-23 00:12:01 +08:00
@dongfuye1 “如果当时持久化失败,当时这个 tcc 事务就返回失败了” tcc 事务你可以失败,但 confim 阶段的数据你没有 rollback 回去啊?
dongfuye1
2021-08-23 05:42:25 +08:00
@heww TCC 的第一个阶段是 Try 阶段,如果注册某一个分支失败,那么会请求 dtm,告知失败,并返回失败。后续 dtm 会对已经注册过的子事务,调用 Cancel 分支,进行回滚。
Try 阶段要全部执行成功,才会到 confirm 阶段,此时的协议是 confirm 不允许失败,临时的网络故障可以通过重试成功。
heww
2021-08-23 09:13:40 +08:00
看错了,我以为是在 cancel 阶段才做 cancel 的持久化的。
lanlanye
2021-11-03 15:15:05 +08:00
想请教一下,纠结 Cancel 阶段失败怎么办是不是有些钻牛角尖?
可是实际应用中这种情况应该会存在的吧?
lanlanye
2021-11-03 15:17:16 +08:00
@lanlanye 看到链接的文章中有讲,当我没问吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/794530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX