RocketMQ的消息发送重试机制和消息流控机制 - 云消息队列 RocketMQ 版

本文为您介绍云消息队列 RocketMQ 版的消息发送重试机制和消息流控机制。

背景信息

云消息队列 RocketMQ 版的消息发送重试机制主要为您解答如下问题：

云消息队列 RocketMQ 版的流控机制主要为您解答如下问题：

云消息队列 RocketMQ 版客户端连接服务端发起消息发送请求时，可能会因为网络故障、服务异常等原因导致调用失败。为保证消息的可靠性，云消息队列 RocketMQ 版在客户端SDK中内置请求重试逻辑，尝试通过重试发送达到最终调用成功的效果。

同步发送和异步发送模式均支持消息发送重试。

触发消息发送重试机制的条件如下：

说明

对于事务消息，只会进行透明重试（transparent retries），网络超时或异常等场景不会进行重试。

生产者在初始化时设置消息发送最大重试次数，当出现上述触发条件的场景时，生产者客户端会按照设置的重试次数一直重试发送消息，直到消息发送成功或达到最大重试次数重试结束，并在最后一次重试失败后返回调用错误响应。

链路耗时阻塞评估：从上述重试机制可以看出，在重试流程中生产者仅能控制最大重试次数。若由于系统异常触发了SDK内置的重试逻辑，则服务端需要等待最终重试结果，可能会导致消息发送请求链路被阻塞。对于某些实时调用类场景，您需要合理评估每次调用请求的超时时间以及最大重试次数，避免影响全链路的耗时。
最终异常兜底：云消息队列 RocketMQ 版客户端内置的发送请求重试机制并不能保证消息发送一定成功。当最终重试仍然失败时，业务方调用需要捕获异常，并做好冗余保护处理，避免消息发送结果不一致。
消息重复问题：因远程调用的不确定性，当云消息队列 RocketMQ 版客户端因请求超时触发消息发送重试流程，此时客户端无法感知服务端的处理结果，客户端进行的消息发送重试可能会产生消息重复问题，业务逻辑需要自行处理消息重复问题。

消息流控指的是系统容量或水位过高，云消息队列 RocketMQ 版服务端会通过快速失败返回流控错误来避免底层资源承受过高压力。

云消息队列 RocketMQ 版的消息流控触发条件如下：

存储压力大：参考消费进度管理的原理机制，消费者分组的初始消费位点为当前队列的最大消费位点。若某些场景例如业务上新等需要回溯到指定时刻前开始消费，此时队列的存储压力会瞬间飙升，触发消息流控。
服务端请求任务排队溢出：若消费者消费能力不足，导致队列中有大量堆积消息，当堆积消息超过一定数量后会触发消息流控，减少下游消费系统压力。

当系统触发消息发送流控时，客户端会收到系统限流错误和异常，错误码信息如下：

gRPC协议：
- reply-code：530
- reply-text关键词：TOO_MANY_REQUESTS
客户端收到系统流控错误码后，会根据指数退避策略进行消息发送重试。
Remoting协议：
- reply-code：215
- reply-text关键词：messages flow control
商业版TCP协议Java SDK 1.9.0.Final以下版本限流时客户端收到系统流控错误码后，不会进行重试；商业版TCP协议Java SDK 1.9.0.Final及以上版本，客户端收到系统流控错误码后，会根据指数退避策略进行消息发送重试。
开源版SDK发送限流时，客户端收到系统流控错误码后，不会进行重试；消费限流时会进行退避重试。

说明

gRPC协议和Remoting协议支持的客户端版本详情，请参见各版本SDK说明。