ALB具备超强弹性及大规模应用层流量处理能力。实际业务场景中如您有ALB压力测试需求,可参考本文进行压力测试。
压测拓扑
您可参考下图进行测试环境设计。
压测方法
压测指标说明
ALB有四个关键指标:新建连接数、并发连接数和处理数据量(请求和响应)、每秒请求数。每一个指标的压测方法不一样。
压测新建连接数指标建议使用短连接,用于测试负载均衡服务与后端服务器的新建处理能力。
建议使用简单的心跳服务测试,减少过多的带宽消耗带来的影响。使用短连接测试时,需要注意客户端端口不足的问题。
压测并发连接数指标建议使用长连接,用于测试负载均衡服务与后端服务器的并发处理能力。
每一条长连接建议使用简单的心跳服务测试,起到保活会话的作用。使用长连接测试高并发能力时,同样需要注意客户端端口不足的问题。
压测处理数据量建议使用长连接,用于测试带宽上限或特殊业务。
压测工具的超时时间建议设置一个较小值,如5秒。因为超时时间太大,测试结果显示平均响应时间加长,导致不利于判断是否已经到达压测水位。超时时间调小,测试结果会体现在成功率上,便于快速判断压测水位。
压测每秒请求数,用于测试负载均衡服务与后端服务器的请求处理能力。可以选择HTTP短连接、HTTP长连接、HTTPS短连接、HTTPS长连接进行测试。
服务器组配置建议
建议关闭健康检查功能,减少健康检查对后端服务器的访问请求。
压测工具建议
不建议您使用Apache ab作为压力测试工具:Apache ab在大量并发场景下存在3秒、6秒、9秒阶梯式停顿的现象。Apache ab会通过判断content length来确定请求是否成功,而NLB挂载多台后端服务器时,返回的content length会不一致,导致测试结果有误。
可能导致压测性能低的原因
若发现压测性能低,可能是以下原因造成的:
客户端端口不足
在进行压力测试时,客户端端口不足会导致连接建立失败。负载均衡会默认抹除TCP连接的timestamp属性,Linux协议栈的tw_reuse(time_wait状态连接复用)无法生效,time_wait状态连接堆积导致客户端端口不足。
解决方法:客户端使用长连接代替短连接。使用RST报文断开连接,即socket设置SO_LINGER属性。
后端服务器accept队列满
后端服务器accept队列满,导致后端服务器不回复syn_ack报文,客户端超时。
解决方法:默认net.core.somaxconn的值为128,执行
sysctl -w net.core.somaxconn=1024
命令更改net.core.somaxconn的值,并重启后端服务器上的应用。后端服务器依赖的应用成为瓶颈
请求经过负载均衡到达后端服务器后,后端服务器本身负载正常,但由于所有后端服务器上的应用又依赖其他应用,例如数据库,当数据库成为瓶颈时,也会引起性能降低。
解决方法:根据实际情况清理后端服务器上不需要的应用。
后端服务器的健康检查状态异常
在压测时,容易忽略后端服务器的健康检查状态,如果有后端服务器健康检查失败或者健康检查状态经常跳跃(成功到失败,又从失败到成功,反复变化),也会导致压测性能低。
解决方法:建议关闭健康检查功能,减少健康检查对后端服务器的访问请求。