分布式事务及解决方案

分布式事务及解决方案

1.相关概念:

1.1分布式系统?

即部署在不同的节点(服务器)的通过网络来完成交互的协同工作的系统
如:电商的订单服务,下单—>减库存,订单和库存服务不在同一个节点上。

1.2事务?

由一组操作组成的一个工作单元,这个工作单元具有原子性(atomicity)、一致性(consistency)、隔 离性(isolation)和持久性(durability)

  • 原子性:执行单元中的操作要么全部执行成功,要么全部失败。如果有一部分成功一部分失败那么成功的操作要全 部回滚到执行前的状态
  • 一致性:执行一次事务会使用数据从一个正确的状态转换到另一个正确的状态,执行前后数据都是完整的,不存在中间状态。
  • 隔离性:在该事务执行的过程中,任何数据的改变只存在于该事务之中,对外界没有影响,事务与事务之间是完全的隔离的。只有事务提交后其它事务才可以查询到最新的数据。
  • 持久性:事务完成后对数据的改变会永久性的存储起来,即使发生宕机数据依然存在。

1.3本地事务?

用关系数据库来控制事务,关系数据库通常都具有ACID特性,传统的单体应用通常会将数据全部存储 在一个数据库中,会借助关系数据库来完成事务控制

1.4分布式事务?

在分布式系统中一次操作由多个系统协同完成,这种一次事务操作涉及多个系统通过网络协同完成的过程称为分布式事务
注意:分布式事务强调的是多个系统在网络协同下完成一个事务的过程,而不是此过程中访问了几个数据库,是不是不同节点的数据库。
如:订单—库存服务,在此过程中即使订单和库存的数据库是同一个,但订单和库存服务分属于不同的系统,也可称为分布式事务。

2.CAP理论

CAP理论是:分布式系统在设计时只能在一致性(Consistency)、可用性(Availability)、分区容忍性(Partition Tolerance)中满足两种,无法兼顾三种。

一致性(Consistency):当不同的节点用来存储相同的数据时,不同结点的数据需要保持同一时刻数据一致性。
可用性(Availability):在由不同节点组成的集群服务中,其中一个结点宕机不影响整个集群对外提供服务。
分区容错性(Partition Tolerance):分区容错性就是允许系统通过网络协同工作,分区容错性要解决由于网络分区导致数据的不完整及无法访问等问题

分布式系统能否兼顾C、A、P?

在保证分区容错的情况下,提高系统的可用性—>增加节点—>节点数量一多,系统的数据的一致性越难保持—>数据一致性越差

3.解决方案

3.1两阶段提交协议(2PC)

两阶段提交由 协调者和参与者组成,共经过两个阶段和三个操作,部分关系数据库如Oracle、MySQL支持两阶段提交协议
2PC协议流程图:
分布式事务及解决方案
1.第一阶段:准备阶段(prepare)
协调者通知参与者准备提交订单,参与者开始投票。
协调者完成准备工作向协调者回应Yes。
2.第二阶段:提交(commit)/回滚(rollback)阶段
协调者根据参与者的投票结果发起最终的提交指令。
如果有参与者没有准备好则发起回滚指令。

以订单—库存为例:

分布式事务及解决方案
1、应用程序连接两个数据源
2、应用程序通过事务协调器向两个库发起prepare,两个数据库收到消息分别执行本地事务(记录日志),但不提 交,如果执行成功则回复yes,否则回复no
3、事务协调器收到回复,只要有一方回复no则分别向参与者发起回滚事务,参与者开始回滚事务。
4、事务协调器收到回复,全部回复yes,此时向参与者发起提交事务。如果参与者有一方提交事务失败则由事务协 调器发起回滚事务。

此方案优缺点:

优点:实现强一致性,部分关系数据库支持
缺点:整个事务的执行需要由协调者在多个节点之间去协调,增加了事务的执行时间,性能低下

3.2事务补偿(TCC)

TCC事务补偿是基于2PC实现的业务层事务控制方案,它是Try、Confirm和Cancel三个单词的首字母

  • Try 检查及预留业务资源 完成提交事务前的检查,并预留好资源
  • Confirm 确定执行业务操作 对try阶段预留的资源正式执行
  • Cancel 取消执行业务操作 对try阶段预留的资源释放
以订单—库存为例:

分布式事务及解决方案
1.Try
下单业务由订单服务和库存服务协同完成,在try阶段订单服务和库存服务完成检查和预留资源。 订单服务检查当前是否满足提交订单的条件(比如:当前存在未完成订单的不允许提交新订单)。 库存服务检查当前是否有充足的库存,并锁定资源。
2.Confirm
订单服务和库存服务成功完成Try后开始正式执行资源操作
订单服务向订单写一条订单信息
库存服务减去库存

3、Cancel
如果订单服务和库存服务有一方出现失败则全部取消操作
订单服务需要删除新增的订单信息
库存服务将减去的库存再还原

此方案优缺点:

优点:最终保证数据的一致性,在业务层实现事务控制,灵活性好。
缺点:开发成本高,每个事务操作每个参与者都需要实现try/confirm/cancel三个接口。
注意:TCC的try/confirm/cancel接口都要实现幂等性,在为在try、confirm、cancel失败后要不断重试。

3.3消息队列实现最终一致

以订单—库存为例:

分布式事务及解决方案
1、订单服务和库存服务完成检查和预留资源
2、订单服务在本地事务中完成添加订单表记录和添加“减少库存任务消息”
3、由定时任务根据消息表的记录发送给MQ通知库存服务执行减库存操作
4、库存服务执行减少库存,并且记录执行消息状态(为避免重复执行消息,在执行减库存之前查询是否执行过此消息)
5、库存服务向MQ发送完成减少库存的消息
6、订单服务接收到完成库存减少的消息后删除原来添加的“减少库存任务消息”

此方案优缺点:

优点 :
由MQ按异步的方式协调完成事务,性能较高
不用实现try/confirm/cancel接口,开发成本比TCC低
缺点:
此方式基于关系数据库本地事务来实现,会出现频繁读写数据库记录,浪费数据库资源,另外对于高并发操作不是最佳方案