分布式锁是大型应用中最常见的功能之一,基于Redis实现分布式锁的方式有很多。本文介绍并分析常见的分布式锁实现方式,之后结合阿里巴巴集团在使用Tair(企业版)和分布式锁方面的业务经验,介绍使用Tair(企业版)实现高性能分布式锁的实践方案。
背景信息
分布式锁及其应用场景
应用开发时,如果需要在同进程内的不同线程并发访问某项资源,可以使用各种互斥锁、读写锁;如果一台主机上的多个进程需要并发访问某项资源,则可以使用进程间同步的原语,例如信号量、管道、共享内存等。但如果多台主机需要同时访问某项资源,就需要使用一种在全局可见并具有互斥性的锁了。这种锁就是分布式锁,可以在分布式场景中对资源加锁,避免竞争资源引起的逻辑错误。
分布式锁的特性
互斥性
在任意时刻,只有一个客户端持有锁。
不死锁
分布式锁本质上是一个基于租约(Lease)的租借锁,如果客户端获得锁后自身出现异常,锁能够在一段时间后自动释放,资源不会被锁死。
一致性
硬件故障或网络异常等外部问题,以及慢查询、自身缺陷等内部因素都可能导致Redis发生高可用切换,replica提升为新的master。此时,如果业务对互斥性的要求非常高,锁需要在切换到新的master后保持原状态。
使用原生Redis实现分布式锁
该部分介绍的实现方式同样适用于Redis开源版。
加锁
在Redis中加锁非常简便,直接使用SET命令即可。示例及关键选项说明如下:
SET resource_1 random_value NX EX 5
表 1. 关键选项说明
参数/选项
说明
resource_1
分布式锁的key,只要这个key存在,相应的资源就处于加锁状态,无法被其它客户端访问。
random_value
一个随机字符串,不同客户端设置的值不能相同。
EX
设置过期时间,单位为秒。您也可以使用PX选项设置单位为毫秒的过期时间。
NX
如果需要设置的key在Redis中已存在,则取消设置。
示例代码为resource_1这个key设置了5秒的过期时间,如果客户端不释放这个key,5秒后key将过期,锁就会被系统回收,此时其它客户端就能够再次为资源加锁并访问资源了。
解锁
解锁一般使用DEL命令,但可能存在下列问题。
t1时刻,App1设置了分布式锁resource_1,过期时间为3秒。
App1由于程序慢等原因等待超过了3秒,而resource_1已经在t2时刻被释放。
t3时刻,App2获得这个分布式锁。
App1从等待中恢复,在t4时刻运行
DEL resource_1
将App2持有的分布式锁释放了。
从上述过程可以看出,一个客户端设置的锁,必须由自己解开。因此客户端需要先使用GET命令确认锁是不是自己设置的,然后再使用DEL解锁。在Redis中通常需要用Lua脚本来实现自锁自解:
if redis.call("get",KEYS[1]) == ARGV[1] then return redis.call("del",KEYS[1]) else return 0 end
续租
当客户端发现在锁的租期内无法完成操作时,就需要延长锁的持有时间,进行续租(renew)。同解锁一样,客户端应该只能续租自己持有的锁。在Redis中可使用如下Lua脚本来实现续租:
if redis.call("get",KEYS[1]) == ARGV[1] then return redis.call("expire",KEYS[1], ARGV[2]) else return 0 end
使用Tair实现分布式锁
使用Tair内存型或持久内存型实例的String增强命令,无需Lua即可实现分布式锁。
加锁
加锁方式与原生Redis相同,使用SET命令:
SET resource_1 random_value NX EX 5
解锁
直接使用Tair(企业版)的CAD命令即可实现优雅而高效的解锁:
/* if (GET(resource_1) == my_random_value) DEL(resource_1) */ CAD resource_1 my_random_value
续租
续租可以直接使用CAS命令实现:
CAS resource_1 my_random_value my_random_value EX 10
说明CAS命令不会检查新设置的value和原value是否相同。
基于Jedis的示例代码
定义CAS/CAD命令
enum TairCommand implements ProtocolCommand { CAD("CAD"), CAS("CAS"); private final byte[] raw; TairCommand(String alt) { raw = SafeEncoder.encode(alt); } @Override public byte[] getRaw() { return raw; } }
加锁
public boolean acquireDistributedLock(Jedis jedis,String resourceKey, String randomValue, int expireTime) { SetParams setParams = new SetParams(); setParams.nx().ex(expireTime); String result = jedis.set(resourceKey,randomValue,setParams); return "OK".equals(result); }
解锁
public boolean releaseDistributedLock(Jedis jedis,String resourceKey, String randomValue) { jedis.getClient().sendCommand(TairCommand.CAD,resourceKey,randomValue); Long ret = jedis.getClient().getIntegerReply(); return 1 == ret; }
续租
public boolean renewDistributedLock(Jedis jedis,String resourceKey, String randomValue, int expireTime) { jedis.getClient().sendCommand(TairCommand.CAS,resourceKey,randomValue,randomValue,"EX",String.valueOf(expireTime)); Long ret = jedis.getClient().getIntegerReply(); return 1 == ret; }
如何保障一致性
Redis的主从同步(replication)是异步进行的,如果向master发送请求修改了数据后master突然出现异常,发生高可用切换,缓冲区的数据可能无法同步到新的master(原replica)上,导致数据不一致。如果丢失的数据跟分布式锁有关,则会导致锁的机制出现问题,从而引起业务异常。下文介绍三种保障一致性的方法。
红锁是Redis作者提出的一致性解决方案。红锁的本质是一个概率问题:如果一个主从架构的Redis在高可用切换期间丢失锁的概率是
k%
,那么相互独立的N个Redis同时丢失锁的概率是多少?如果用红锁来实现分布式锁,那么丢锁的概率是(k%)^N
。鉴于Redis极高的稳定性,此时的概率已经完全能满足产品的需求。说明红锁的实现并非这样严格,一般保证
M(1<M=<N)
个同时锁上即可,但通常仍旧可以满足需求。红锁的问题在于:
加锁和解锁的延迟较大。
难以在集群版或者标准版(主从架构)的Redis实例中实现。
占用的资源过多,为了实现红锁,需要创建多个互不相关的云Redis实例或者自建Redis。
使用WAIT命令。
Redis的WAIT命令会阻塞当前客户端,直到这条命令之前的所有写入命令都成功从master同步到指定数量的replica,命令中可以设置单位为毫秒的等待超时时间。在云Redis版中使用WAIT命令提高分布式锁一致性的示例如下:
SET resource_1 random_value NX EX 5 WAIT 1 5000
使用以上代码,客户端在加锁后会等待数据成功同步到replica才继续进行其它操作,最大等待时间为5000毫秒。执行WAIT命令后如果返回结果是1则表示同步成功,无需担心数据不一致。相比红锁,这种实现方法极大地降低了成本。
需要注意的是:
WAIT只会阻塞发送它的客户端,不影响其它客户端。
WAIT返回正确的值表示设置的锁成功同步到了replica,但如果在正常返回前发生高可用切换,数据还是可能丢失,此时WAIT只能用来提示同步可能失败,无法保证数据不丢失。您可以在WAIT返回异常值后重新加锁或者进行数据校验。
解锁不一定需要使用WAIT,因为锁只要存在就能保持互斥,延迟删除不会导致逻辑问题。
使用Tair
Tair的CAS/CAD命令可以极大降低分布式锁的开发和管理成本,提升锁的性能。
Tair内存型实例能提供三倍于原生Redis的性能,即使是大并发的分布式锁也不会影响正常的实例服务。
Tair持久内存型实例基于持久内存技术,掉电数据不丢失,每个写操作将在持久化成功之后返回,保证了数据的实时持久化。同时,持久内存版型实例还支持配置主备实例间同步方式为半同步,保证写入数据并同步至备节点后,才成功返回客户端(若出现备节点故障、网络异常等情况会降级为异步同步),保证高可用切换后数据不丢失。