全部产品
Search
文档中心

网络智能服务:事件中心

更新时间:Nov 25, 2024

网络智能服务 NIS(Network Intelligence Service)事件中心提供主动告警能力,帮助您及时获知风险,查看可能受影响的资源,避免业务受损。

应用场景

NIS事件由阿里云定义,用于记录和通知云网络资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。

  • 通知风险和异常

    如果发生了实例资源可用性或性能受损的事件,例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等,阿里云会将事件推送至NIS控制台的事件中心进行展示,建议您及时响应这些事件,避免因资源可用性或性能受损影响业务。

  • 实现自动化运维

    NIS控制台展示的事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且事件产生及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。

使用限制

已停售的实例规格族不支持事件功能,更多信息,请参见各云服务的停售公告。

基本信息

事件类型

事件由阿里云定义,用于记录和通知云网络资源的信息。按照起因进行分类,事件可以分为:

类别

说明

举例事件

问题事件

已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。

  • 公网带宽规格超限导致丢包

  • 实例欠费导致停机

风险事件

可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。

  • 物理链路丢包对业务的影响风险

  • 带宽流量用量突增突减的故障风险

  • 实例欠费即将停机风险

事件等级

按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:

  • 严重:影响重大,需要尽快处理,否则可能导致实例无法使用。

  • 警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。

  • 信息:您自行选择是否关注即可。

说明

关于事件Code、名称、说明与处理建议等。具体信息,请参见事件汇总

事件汇总

汇总NIS支持的事件,并为各事件提供处理建议。

说明

问题事件不支持监控性能共享型CLB实例。

问题事件

事件code

事件名称

事件等级

云监控事件名称

事件说明和影响

告警规则

用户侧处理建议

公网实例

problem-internetBandwidthOverlimit

公网带宽超限丢包

严重

实例带宽超限丢包

公网实例的实际带宽流量超出了当前带宽规格,出现丢包情况。

其中公网实例指与公网流量相关的实例,如:弹性公网IP实例、带宽包实例或传统型负载均衡CLB实例等。

严重:最近10分钟高频触发带宽超限,产生丢包。

建议扩容,提升带宽峰值。

公网NAT网关

problem-nat-sessionOverLimit

NAT会话超限丢弃连接

严重

NAT会话超限丢弃连接

公网NAT网关会话数量超出规格,出现新建会话失败情况,且丢包>100 packet/s。

严重:最近10分钟高频触发并发会话数超限,且丢包>100 packet/s。

建议升配或拆分为多个公网NAT网关实例。具体操作,请参见管理NAT网关配额创建和管理公网NAT网关实例

problem-nat-sessionNewOverLimit

NAT新建会话超限丢弃连接

严重

NAT新建会话超限丢弃连接

公网NAT网关新建会话速率超出规格,出现新建会话失败情况,且丢包>100 packet/s。

严重:最近10分钟高频触发新建会话数超限,且丢包>100 packet/s。

problem-nat-portAllocationError

NAT源端口分配失败

严重

NAT源端口分配失败

公网NAT网关实例配置的EIP个数过少,出现源端口分配失败情况,且丢包>10 packet/s。

说明

该事件暂不支持设置订阅。

严重:最近10分钟高频触发源端口分配失败现象,且丢包>10 packet/s。

建议增加绑定到公网NAT网关实例的EIP。具体操作,请参见创建和管理公网NAT网关实例

problem-nat-datapathUnavailable

NAT数据链路不可用

严重

NAT数据链路不可用

NAT数据链路不可用。过去10分钟,您的NAT网关可用性为0%,即所有流量受影响,您的NAT 网关资源无法正常工作,可能存在导致不可用的平台事件,阿里云工程师正在紧急恢复中。

严重:最近10分钟NAT网关可用性为0%。

如果您已经通过多NAT网关部署为业务获得高可用性,建议进行NAT网关切换,具体操作,请参见通过多NAT网关部署为业务获得高可用性;否则,建议您联系阿里工程师获取最新恢复进展。

problem-nat-datapathDegraded

NAT数据链路降级

严重

NAT数据链路降级

NAT数据链路降级。过去10分钟,您的NAT网关可用性已低于80%,即20%以上流量受影响,您的NAT 网关资源无法正常工作,可能存在导致数据包丢弃的平台事件,阿里云工程师正在紧急恢复中。

严重:最近10分钟NAT网关可用性<80%,产生丢包。

传统型负载均衡CLB(Classic Load Balancer)

problem-clb-connectionOverLimit

CLB会话超限新建连接丢失

严重

CLB会话超限新建连接丢失

CLB新建连接或并发连接数超出规格,出现新建会话失败情况,丢弃连接速率较高。

严重:最近10分钟高频触发并发会话数超限,产生丢包。

建议升配或更改为网络型负载均衡 NLB(Network Load Balancer)应用型负载均衡 ALB(Application Load Balancer)实例。

具体操作,请参见管理CLB配额NLBALB的产品介绍,请参见什么是网络型负载均衡NLB什么是应用型负载均衡ALB

problem-clb-bandwidthOverLimit

CLB带宽规格超限丢包

严重

CLB带宽规格超限丢包

CLB实际流量超出带宽规格,出现丢包情况。

严重:最近10分钟高频触发带宽规格超限,且丢包量>100 bps。

建议扩容。具体操作,请参见调整性能保障型实例的规格

problem-clb-connectionFail

CLB失败连接数骤增

严重

CLB失败连接数骤增

CLB因为(后端服务器规格超限/负载过高/业务异常),出现失败连接突增情况。

严重:最近10分钟CLB新建连接失败数骤增,满足以下全部条件后触发告警:

条件一:失败连接数>100/s;

条件二:失败连接数相较上个10分钟窗口环比上升30%;

条件三:通过AI学习历史失败连接数平稳基线范围,10分钟里连续存在突破智能基线上限>30%。

视原因建议(升配后端服务器规格/升配CLB规格/检查后端业务状态)。

具体操作,请参见管理CLB配额

NLB

problem-nlb-connectionFail

NLB失败连接数骤增

严重

NLB失败连接数骤增

NLB实例的VIP(Virtual IP address)已经连续十分钟出现失败连接数突增现象,可能存在以下原因:

  • 网络链路抖动。

  • 后端服务器性能不足。

严重:NLB实例失败连接数同时满足以下条件触发告警。

条件一:在持续610秒的监控窗口内,连续3分钟失败连接数突破智能预测基线上边界比例>100%;

条件二:在持续610秒的监控窗口内,连续7分钟失败连接数环比上个小时上升≥50%;

条件三:在持续610秒的监控窗口内,连续8分钟失败连接数≥1000。

建议检查后端服务器水位或业务状态是否异常。

problem-nlb-newConnectionSurge

NLB新建连接丢弃

严重

NLB新建连接丢弃

NLB实例的VIP因为新建连接数骤增,连续出现(毫秒/秒级)新建连接请求丢弃现象。

严重:NLB实例的连接数同时满足以下条件触发告警。

条件一:VIP每秒丢弃连接数,在10分钟里超过8个点>0;

条件二:VIP每秒新建连接数,在10分钟里超过8个点<200000。

建议拆分多个NLB实例,将流量分配到不同的NLB实例或联系客户经理单独报备。

problem-nlb-newConnectionOverLimit

NLB新建连接超限

严重

NLB新建连接超限

NLB实例的VIP新建连接已经超出NLB单个VIP自动弹性上限,连续出现新建连接请求丢弃现象。

严重:NLB实例的连接数同时满足以下条件触发告警。

条件一:VIP每秒丢弃连接数,在10分钟里超过8个点>0;

条件二:VIP每秒新建连接数,在10分钟里超过8个点≥200000。

problem-nlb-concurrentConnectionOverLimit

NLB并发连接超限

严重

NLB并发连接超限

NLB实例的VIP并发连接数已经超出NLB单个VIP自动弹性上限,连续出现新建连接请求丢弃现象。

严重:NLB实例的连接数同时满足以下条件触发告警。

条件一:VIP每秒丢弃连接数,在10分钟里超过8个点>0;

条件二:VIP最大并发连接数,在10分钟里超过8个点>5000000。

ALB

problem-alb-intranetBandwidthOverLimit

ALB私网带宽超限产生丢包

严重

ALB私网带宽超限产生丢包

ALB实例的VIP地址上出方向或入方向带宽达到上限,ALB域名解析的单一VIP有带宽限额。

严重:ALB实例丢弃流量,在10分钟里超过8个点>100 bps。

建议为ALB实例设置CNAME域名解析。具体操作,请参见为ALB添加CNAME记录

problem-alb-sessionOverLimit

ALB会话超限导致新建连接丢失

严重

ALB会话超限导致新建连接丢失

ALB实例的VIP地址上新建连接或并发连接数超出上限,出现新建会话失败情况。ALB域名解析的单一VIP有新建连接数限额。

严重:ALB实例每秒丢弃连接数,在10分钟里超过8个点>0。

problem-alb-qpsOverLimit

ALB QPS超限产生503错误码

严重

ALB QPS超限产生503错误码

ALB实例的VIP地址上最大每秒请求数(QPS)达到VIP上限,ALB域名解析的单一VIP有QPS限额。

严重:ALB实例每秒丢弃请求数,在10分钟里超过8个点>200 qps,且持续10分钟环比7分钟之前,实例每秒丢弃请求数环比上升≥30%。

云企业网CEN(Cloud Enterprise Network)

problem-cen-routeOverLimit

CEN路由数量超限

严重

CEN路由数量超限

CEN路由配额超限,可能引起网络问题。

严重:CEN路由配额超限,引起网络问题。

建议升级转发路由器TR(Transit Router)具体操作,请参见升级基础版转发路由器

TR

problem-cen-vpcAttachBandwidthOverLimit

VPC连接带宽超限丢包

严重

VPC连接带宽超限丢包

CEN转发路由器实际流量超出带宽规格,出现丢包情况。

严重:入方向丢包率,在10分钟里超过5个点>0。

建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额

problem-cen-peerAttachBandwidthOverLimit

跨域连接带宽超限丢包

严重

跨域连接带宽超限丢包

CEN转发路由器实际流量超出带宽规格,出现丢包情况。

严重:TR实例实际流量同时满足以下条件触发告警。

条件一:流出带宽峰值利用率,在10分钟里超过8个点≥90%。

条件二:出方向限速丢包速率,在10分钟里超过8个点>100 pps。

建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额

风险事件

事件code

事件名称

事件等级

云监控事件名称

事件说明和影响

告警规则

用户侧处理建议

公网实例

risk-internetPacketLoss

公网链路丢包风险

警告

公网链路丢包风险

探测发现阿里云 {Region地域} 到{国家} - {地区} - {运营商}的物理链路发生了丢包告警,当前账号在此链路的流量可能存在抖动风险。

严重:若满足以下任一条件,则触发告警。

条件一:探测到地区级的运营商链路丢包率>50%;

条件二:探测到全国性的运营商链路丢包,且当前账号在此链路的流量最近10分钟平均带宽≥0.05 Mbps。

说明
  • 地区级:目的区域为{国家}-{地区}-{运营商}的物理链路。

  • 全国性:目的区域为{国家}-{运营商}的物理链路。

警告:公网链路丢包率<50%,且最近10分钟平均带宽>0.5 Mbps。

请关注这条链路上的实例带宽是否符合实际业务要求(可参考流量分析中五元组数据),若有异常可考虑将关键业务迁移到其他地域;若无异常可忽略此告警。

risk-internetBandwidthOverlimit

公网带宽超限丢包风险

警告

公网带宽超限丢包风险

根据历史数据统计,在未来某一时刻实例实际带宽流量超出当前规格的发生概率大于90%。

警告:某一时刻流量超出规格的概率>90%,产生丢包。

建议关注,若出现超规格情况建议扩容。

VPN 网关

risk-vpn-bpsOverLimit

VPN带宽超限风险

警告

VPN带宽超限风险

VPN实例转发流量最近十分钟带宽利用率有3次超过90%。

警告:带宽利用率,在10分钟里超过3个点>90%。

警告:带宽利用率,在10分钟里超过8个点高于30%

risk-vpn-bgpRouteLimit

BGP动态路由数量超限风险

警告

BGP动态路由数量超限风险

VPN实例最近十分钟学习到的BGP动态路由数量已超过实例BGP路由配额的90%。

警告:路由利用率,在10分钟里超过1个点>90%。

建议关注,若出现超规格情况建议您可以根据实际网络规划在对端VPN网关进行网段聚合。

高速通道

risk-ec-physicalConnectionFail

专线端口/链路故障

警告

专线端口/链路故障

运营商物理专线或设备端口故障导致业务中断。

警告:监控分钟级的VBR实例IDC到VPC方向流入速率,若同时满足以下条件,则触发告警。

条件一:3≤专线端口下跌次数<20;

条件二:专线端口下跌连续2个时间点以上;

条件三:非全量专线端口下跌状态。

建议您联系您的商务经理沟通处理。

risk-ec-bgpRouterFail

BGP连接故障

警告

BGP连接故障

物理专线网络连通性故障或BGP配置异常,导致BGP连接故障和路由丢失。

警告:BGP连接状态从已连接变成其他状态,则触发告警。

建议您联系您的商务经理沟通处理。

risk-ec-inTrafficDroppedToZero

VBR入方向流量陡降

警告

VBR入方向流量陡降

运营商物理专线或设备端口故障导致VBR入方向流量陡降。

警告:监控分钟级的VBR实例IDC到VPC方向流入速率,若同时满足以下条件,则触发告警。 条件一:持续3分钟,每分钟环比前7分钟的平均速率下跌≥99%; 条件二:持续3分钟,每分钟环比前7分钟的平均速率下跌绝对值≥1 Mbps; 条件三:持续3分钟,每分钟环比前15、30和60分钟的平均速率下跌绝对值≥0.5 Mbps; 条件四(智能基线告警):通过学习VBR实例的历史流入速率周期性规律,预测下一周期流入速率稳定区间,若在周期到达时,3分钟内持续2分钟突破预测区间下限≥99%,则判定为异常下跌。

请确认是否是正常业务流量行为,或是否存在健康检查切换,若存在业务受损,请联系您的商务经理处理。

risk-ec-outTrafficDroppedToZero

VBR出方向流量陡降

警告

VBR出方向流量陡降

运营商物理专线或设备端口故障导致VBR出方向流量陡降。

警告:监控分钟级的VBR实例VPC到IDC方向流出速率,若同时满足以下条件,则触发告警。 条件一:持续3分钟,每分钟环比前7分钟的平均速率下跌≥99%;

条件二:持续3分钟,每分钟环比前7分钟的平均速率下跌绝对值≥1 Mbps;

条件三: 持续3分钟,每分钟环比前15、30和60分钟的平均速率下跌绝对值≥0.5 Mbps;

条件四(智能基线告警):通过学习VBR实例的历史流出速率周期性规律,预测下一周期流出速率稳定区间,若在周期到达时,3分钟内持续2分钟突破预测区间下限≥99%,则判定为异常下跌。

请确认是否是正常业务流量行为,或是否存在健康检查切换,若存在业务受损,请联系您的商务经理处理。

操作导航

操作

说明及相关文档

查看事件

您可以通过以下方式查看事件:

订阅事件

您可以通过云监控自主订阅事件,订阅后,将以电话、短信、邮件等方式及时通知您事件的发生与进展,请参见设置NIS事件订阅

解决事件

查看事件之后,您可以根据相应的建议解决问题,请参见事件汇总