网络智能服务 NIS(Network Intelligence Service)事件中心提供主动告警能力,帮助您及时获知风险,查看可能受影响的资源,避免业务受损。
应用场景
NIS事件由阿里云定义,用于记录和通知云网络资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。
通知风险和异常
如果发生了实例资源可用性或性能受损的事件,例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等,阿里云会将事件推送至NIS控制台的事件中心进行展示,建议您及时响应这些事件,避免因资源可用性或性能受损影响业务。
实现自动化运维
在NIS控制台展示的事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且事件产生及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。
使用限制
已停售的实例规格族不支持事件功能,更多信息,请参见各云服务的停售公告。
基本信息
事件类型
事件由阿里云定义,用于记录和通知云网络资源的信息。按照起因进行分类,事件可以分为:
类别 | 说明 | 举例事件 |
问题事件 | 已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。 |
|
风险事件 | 可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。 |
|
事件等级
按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:
严重:影响重大,需要尽快处理,否则可能导致实例无法使用。
警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。
信息:您自行选择是否关注即可。
关于事件Code、名称、说明与处理建议等。具体信息,请参见事件汇总。
事件汇总
汇总NIS支持的事件,并为各事件提供处理建议。
问题事件不支持监控性能共享型CLB实例。
问题事件
事件code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 告警规则 | 用户侧处理建议 |
公网实例 | ||||||
problem-internetBandwidthOverlimit | 公网带宽超限丢包 | 严重 | 实例带宽超限丢包 | 公网实例的实际带宽流量超出了当前带宽规格,出现丢包情况。 其中公网实例指与公网流量相关的实例,如:弹性公网IP实例、带宽包实例或传统型负载均衡CLB实例等。 | 严重:最近10分钟高频触发带宽超限,产生丢包。 | 建议扩容,提升带宽峰值。 |
公网NAT网关 | ||||||
problem-nat-sessionOverLimit | NAT会话超限丢弃连接 | 严重 | NAT会话超限丢弃连接 | 公网NAT网关会话数量超出规格,出现新建会话失败情况,且丢包>100 packet/s。 | 严重:最近10分钟高频触发并发会话数超限,且丢包>100 packet/s。 | 建议升配或拆分为多个公网NAT网关实例。具体操作,请参见管理NAT网关配额和创建和管理公网NAT网关实例。 |
problem-nat-sessionNewOverLimit | NAT新建会话超限丢弃连接 | 严重 | NAT新建会话超限丢弃连接 | 公网NAT网关新建会话速率超出规格,出现新建会话失败情况,且丢包>100 packet/s。 | 严重:最近10分钟高频触发新建会话数超限,且丢包>100 packet/s。 | |
problem-nat-portAllocationError | NAT源端口分配失败 | 严重 | NAT源端口分配失败 | 公网NAT网关实例配置的EIP个数过少,出现源端口分配失败情况,且丢包>10 packet/s。 说明 该事件暂不支持设置订阅。 | 严重:最近10分钟高频触发源端口分配失败现象,且丢包>10 packet/s。 | 建议增加绑定到公网NAT网关实例的EIP。具体操作,请参见创建和管理公网NAT网关实例。 |
problem-nat-datapathUnavailable | NAT数据链路不可用 | 严重 | NAT数据链路不可用 | NAT数据链路不可用。过去10分钟,您的NAT网关可用性为0%,即所有流量受影响,您的NAT 网关资源无法正常工作,可能存在导致不可用的平台事件,阿里云工程师正在紧急恢复中。 | 严重:最近10分钟NAT网关可用性为0%。 | 如果您已经通过多NAT网关部署为业务获得高可用性,建议进行NAT网关切换,具体操作,请参见通过多NAT网关部署为业务获得高可用性;否则,建议您联系阿里工程师获取最新恢复进展。 |
problem-nat-datapathDegraded | NAT数据链路降级 | 严重 | NAT数据链路降级 | NAT数据链路降级。过去10分钟,您的NAT网关可用性已低于80%,即20%以上流量受影响,您的NAT 网关资源无法正常工作,可能存在导致数据包丢弃的平台事件,阿里云工程师正在紧急恢复中。 | 严重:最近10分钟NAT网关可用性<80%,产生丢包。 | |
传统型负载均衡CLB(Classic Load Balancer) | ||||||
problem-clb-connectionOverLimit | CLB会话超限新建连接丢失 | 严重 | CLB会话超限新建连接丢失 | CLB新建连接或并发连接数超出规格,出现新建会话失败情况,丢弃连接速率较高。 | 严重:最近10分钟高频触发并发会话数超限,产生丢包。 | 建议升配或更改为网络型负载均衡 NLB(Network Load Balancer)或应用型负载均衡 ALB(Application Load Balancer)实例。 具体操作,请参见管理CLB配额。NLB和ALB的产品介绍,请参见什么是网络型负载均衡NLB、什么是应用型负载均衡ALB。 |
problem-clb-bandwidthOverLimit | CLB带宽规格超限丢包 | 严重 | CLB带宽规格超限丢包 | CLB实际流量超出带宽规格,出现丢包情况。 | 严重:最近10分钟高频触发带宽规格超限,且丢包量>100 bps。 | 建议扩容。具体操作,请参见调整性能保障型实例的规格。 |
problem-clb-connectionFail | CLB失败连接数骤增 | 严重 | CLB失败连接数骤增 | CLB因为(后端服务器规格超限/负载过高/业务异常),出现失败连接突增情况。 | 严重:最近10分钟CLB新建连接失败数骤增,满足以下全部条件后触发告警: 条件一:失败连接数>100/s; 条件二:失败连接数相较上个10分钟窗口环比上升30%; 条件三:通过AI学习历史失败连接数平稳基线范围,10分钟里连续存在突破智能基线上限>30%。 | 视原因建议(升配后端服务器规格/升配CLB规格/检查后端业务状态)。 具体操作,请参见管理CLB配额。 |
NLB | ||||||
problem-nlb-connectionFail | NLB失败连接数骤增 | 严重 | NLB失败连接数骤增 | NLB实例的VIP(Virtual IP address)已经连续十分钟出现失败连接数突增现象,可能存在以下原因:
| 严重:NLB实例失败连接数同时满足以下条件触发告警。 条件一:在持续610秒的监控窗口内,连续3分钟失败连接数突破智能预测基线上边界比例>100%; 条件二:在持续610秒的监控窗口内,连续7分钟失败连接数环比上个小时上升≥50%; 条件三:在持续610秒的监控窗口内,连续8分钟失败连接数≥1000。 | 建议检查后端服务器水位或业务状态是否异常。 |
problem-nlb-newConnectionSurge | NLB新建连接丢弃 | 严重 | NLB新建连接丢弃 | NLB实例的VIP因为新建连接数骤增,连续出现(毫秒/秒级)新建连接请求丢弃现象。 | 严重:NLB实例的连接数同时满足以下条件触发告警。 条件一:VIP每秒丢弃连接数,在10分钟里超过8个点>0; 条件二:VIP每秒新建连接数,在10分钟里超过8个点<200000。 |
建议拆分多个NLB实例,将流量分配到不同的NLB实例或联系客户经理单独报备。 |
problem-nlb-newConnectionOverLimit | NLB新建连接超限 | 严重 | NLB新建连接超限 | NLB实例的VIP新建连接已经超出NLB单个VIP自动弹性上限,连续出现新建连接请求丢弃现象。 | 严重:NLB实例的连接数同时满足以下条件触发告警。 条件一:VIP每秒丢弃连接数,在10分钟里超过8个点>0; 条件二:VIP每秒新建连接数,在10分钟里超过8个点≥200000。 | |
problem-nlb-concurrentConnectionOverLimit | NLB并发连接超限 | 严重 | NLB并发连接超限 | NLB实例的VIP并发连接数已经超出NLB单个VIP自动弹性上限,连续出现新建连接请求丢弃现象。 | 严重:NLB实例的连接数同时满足以下条件触发告警。 条件一:VIP每秒丢弃连接数,在10分钟里超过8个点>0; 条件二:VIP最大并发连接数,在10分钟里超过8个点>5000000。 | |
ALB | ||||||
problem-alb-intranetBandwidthOverLimit | ALB私网带宽超限产生丢包 | 严重 | ALB私网带宽超限产生丢包 | ALB实例的VIP地址上出方向或入方向带宽达到上限,ALB域名解析的单一VIP有带宽限额。 | 严重:ALB实例丢弃流量,在10分钟里超过8个点>100 bps。 | 建议为ALB实例设置CNAME域名解析。具体操作,请参见为ALB添加CNAME记录。 |
problem-alb-sessionOverLimit | ALB会话超限导致新建连接丢失 | 严重 | ALB会话超限导致新建连接丢失 | ALB实例的VIP地址上新建连接或并发连接数超出上限,出现新建会话失败情况。ALB域名解析的单一VIP有新建连接数限额。 | 严重:ALB实例每秒丢弃连接数,在10分钟里超过8个点>0。 | |
problem-alb-qpsOverLimit | ALB QPS超限产生503错误码 | 严重 | ALB QPS超限产生503错误码 | ALB实例的VIP地址上最大每秒请求数(QPS)达到VIP上限,ALB域名解析的单一VIP有QPS限额。 | 严重:ALB实例每秒丢弃请求数,在10分钟里超过8个点>200 qps,且持续10分钟环比7分钟之前,实例每秒丢弃请求数环比上升≥30%。 | |
云企业网CEN(Cloud Enterprise Network) | ||||||
problem-cen-routeOverLimit | CEN路由数量超限 | 严重 | CEN路由数量超限 | CEN路由配额超限,可能引起网络问题。 | 严重:CEN路由配额超限,引起网络问题。 | 建议升级转发路由器TR(Transit Router)具体操作,请参见升级基础版转发路由器。 |
TR | ||||||
problem-cen-vpcAttachBandwidthOverLimit | VPC连接带宽超限丢包 | 严重 | VPC连接带宽超限丢包 | CEN转发路由器实际流量超出带宽规格,出现丢包情况。 | 严重:入方向丢包率,在10分钟里超过5个点>0。 | 建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额。 |
problem-cen-peerAttachBandwidthOverLimit | 跨域连接带宽超限丢包 | 严重 | 跨域连接带宽超限丢包 | CEN转发路由器实际流量超出带宽规格,出现丢包情况。 | 严重:TR实例实际流量同时满足以下条件触发告警。 条件一:流出带宽峰值利用率,在10分钟里超过8个点≥90%。 条件二:出方向限速丢包速率,在10分钟里超过8个点>100 pps。 | 建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额。 |
风险事件
事件code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 告警规则 | 用户侧处理建议 |
公网实例 | ||||||
risk-internetPacketLoss | 公网链路丢包风险 | 警告 | 公网链路丢包风险 | 探测发现阿里云 {Region地域} 到{国家} - {地区} - {运营商}的物理链路发生了丢包告警,当前账号在此链路的流量可能存在抖动风险。 | 严重:若满足以下任一条件,则触发告警。 条件一:探测到地区级的运营商链路丢包率>50%; 条件二:探测到全国性的运营商链路丢包,且当前账号在此链路的流量最近10分钟平均带宽≥0.05 Mbps。 说明
警告:公网链路丢包率<50%,且最近10分钟平均带宽>0.5 Mbps。 | 请关注这条链路上的实例带宽是否符合实际业务要求(可参考流量分析中五元组数据),若有异常可考虑将关键业务迁移到其他地域;若无异常可忽略此告警。 |
risk-internetBandwidthOverlimit | 公网带宽超限丢包风险 | 警告 | 公网带宽超限丢包风险 | 根据历史数据统计,在未来某一时刻实例实际带宽流量超出当前规格的发生概率大于90%。 | 警告:某一时刻流量超出规格的概率>90%,产生丢包。 | 建议关注,若出现超规格情况建议扩容。 |
VPN 网关 | ||||||
risk-vpn-bpsOverLimit | VPN带宽超限风险 | 警告 | VPN带宽超限风险 | VPN实例转发流量最近十分钟带宽利用率有3次超过90%。 | 警告:带宽利用率,在10分钟里超过3个点>90%。 | 警告:带宽利用率,在10分钟里超过8个点高于30% |
risk-vpn-bgpRouteLimit | BGP动态路由数量超限风险 | 警告 | BGP动态路由数量超限风险 | VPN实例最近十分钟学习到的BGP动态路由数量已超过实例BGP路由配额的90%。 | 警告:路由利用率,在10分钟里超过1个点>90%。 | 建议关注,若出现超规格情况建议您可以根据实际网络规划在对端VPN网关进行网段聚合。 |
高速通道 | ||||||
risk-ec-physicalConnectionFail | 专线端口/链路故障 | 警告 | 专线端口/链路故障 | 运营商物理专线或设备端口故障导致业务中断。 | 警告:监控分钟级的VBR实例IDC到VPC方向流入速率,若同时满足以下条件,则触发告警。 条件一:3≤专线端口下跌次数<20; 条件二:专线端口下跌连续2个时间点以上; 条件三:非全量专线端口下跌状态。 | 建议您联系您的商务经理沟通处理。 |
risk-ec-bgpRouterFail | BGP连接故障 | 警告 | BGP连接故障 | 物理专线网络连通性故障或BGP配置异常,导致BGP连接故障和路由丢失。 | 警告:BGP连接状态从已连接变成其他状态,则触发告警。 | 建议您联系您的商务经理沟通处理。 |
risk-ec-inTrafficDroppedToZero | VBR入方向流量陡降 | 警告 | VBR入方向流量陡降 | 运营商物理专线或设备端口故障导致VBR入方向流量陡降。 | 警告:监控分钟级的VBR实例IDC到VPC方向流入速率,若同时满足以下条件,则触发告警。 条件一:持续3分钟,每分钟环比前7分钟的平均速率下跌≥99%; 条件二:持续3分钟,每分钟环比前7分钟的平均速率下跌绝对值≥1 Mbps; 条件三:持续3分钟,每分钟环比前15、30和60分钟的平均速率下跌绝对值≥0.5 Mbps; 条件四(智能基线告警):通过学习VBR实例的历史流入速率周期性规律,预测下一周期流入速率稳定区间,若在周期到达时,3分钟内持续2分钟突破预测区间下限≥99%,则判定为异常下跌。 | 请确认是否是正常业务流量行为,或是否存在健康检查切换,若存在业务受损,请联系您的商务经理处理。 |
risk-ec-outTrafficDroppedToZero | VBR出方向流量陡降 | 警告 | VBR出方向流量陡降 | 运营商物理专线或设备端口故障导致VBR出方向流量陡降。 | 警告:监控分钟级的VBR实例VPC到IDC方向流出速率,若同时满足以下条件,则触发告警。 条件一:持续3分钟,每分钟环比前7分钟的平均速率下跌≥99%; 条件二:持续3分钟,每分钟环比前7分钟的平均速率下跌绝对值≥1 Mbps; 条件三: 持续3分钟,每分钟环比前15、30和60分钟的平均速率下跌绝对值≥0.5 Mbps; 条件四(智能基线告警):通过学习VBR实例的历史流出速率周期性规律,预测下一周期流出速率稳定区间,若在周期到达时,3分钟内持续2分钟突破预测区间下限≥99%,则判定为异常下跌。 | 请确认是否是正常业务流量行为,或是否存在健康检查切换,若存在业务受损,请联系您的商务经理处理。 |
操作导航
操作 | 说明及相关文档 |
查看事件 | 您可以通过以下方式查看事件: |
订阅事件 | 您可以通过云监控自主订阅事件,订阅后,将以电话、短信、邮件等方式及时通知您事件的发生与进展,请参见设置NIS事件订阅。 |
解决事件 | 查看事件之后,您可以根据相应的建议解决问题,请参见事件汇总。 |