Network Intelligence Service (NIS)事件中心提供主動警示能力,協助您及時獲知風險,查看可能受影響的資源,避免業務受損。
應用情境
NIS事件由阿里雲定義,用於記錄和通知雲網路資源的資訊,例如營運任務執行情況、資源是否出現異常、資源狀態變化等。
通知風險和異常
如果發生了執行個體資源可用性或效能受損的事件,例如因執行個體超規格使用造成效能受損、因電訊廠商鏈路丟包影響業務可用性、執行個體到期費用預警等,阿里雲會將事件推送至NIS控制台的事件中心進行展示,建議您及時響應這些事件,避免因資源可用性或效能受損影響業務。
實現自動化營運
在NIS控制台展示的事件均定義了事件狀態,方便區分相應系統營運任務的執行情況,而且事件產生及狀態變化時會上報至CloudMonitor,方便您進一步根據自身需要搭建事件驅動的自動化營運體系。
使用限制
已停售的執行個體規格類型系列不支援事件功能,更多資訊,請參見各雲端服務的停售公告。
基本資料
事件類型
事件由阿里雲定義,用於記錄和通知雲網路資源的資訊。按照起因進行分類,事件可以分為:
類別 | 說明 | 舉例事件 |
問題事件 | 已經造成業務受損的例外狀況事件,並且7天內狀態一直處於進行中的事件。 |
|
風險事件 | 可能造成業務受損的例外狀況事件,並且7天內狀態一直處於進行中的事件。 |
|
事件等級
按照對執行個體正常啟動並執行影響程度進行劃分,事件分為以下幾個等級:
嚴重:影響重大,需要儘快處理,否則可能導致執行個體無法使用。
警告:有一定影響,需要您在影響持續期間加以關注,或者選擇合適時間處理。
資訊:您自行選擇是否關注即可。
關於事件Code、名稱、說明與處理建議等。具體資訊,請參見事件匯總。
事件匯總
匯總NIS支援的事件,並為各事件提供處理建議。
問題事件不支援監控效能共用型CLB執行個體。
問題事件
事件code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 警示規則 | 使用者側處理建議 |
公網執行個體 | ||||||
problem-internetBandwidthOverlimit | 公網頻寬超限丟包 | 嚴重 | 執行個體頻寬超限丟包 | 公網執行個體的實際頻寬流量超出了當前頻寬規格,出現丟包情況。 其中公網執行個體指與公網流量相關的執行個體,如:Elastic IP Address執行個體、頻寬包執行個體或傳統型負載平衡CLB執行個體等。 | 嚴重:最近10分鐘高頻觸發頻寬超限,產生丟包。 | 建議擴容,提升頻寬峰值。 |
公網NAT Gateway | ||||||
problem-nat-sessionOverLimit | NAT會話超限丟棄串連 | 嚴重 | NAT會話超限丟棄串連 | 公網NAT Gateway會話數量超出規格,出現建立會話失敗情況,且丟包>100 packet/s。 | 嚴重:最近10分鐘高頻觸發並發會話數超限,且丟包>100 packet/s。 | 建議升配或拆分為多個公網NAT Gateway執行個體。具體操作,請參見管理NAT Gateway配額和建立和管理公網NAT Gateway執行個體。 |
problem-nat-sessionNewOverLimit | NAT建立會話超限丟棄串連 | 嚴重 | NAT建立會話超限丟棄串連 | 公網NAT Gateway建立會話速率超出規格,出現建立會話失敗情況,且丟包>100 packet/s。 | 嚴重:最近10分鐘高頻觸發建立會話數超限,且丟包>100 packet/s。 | |
problem-nat-portAllocationError | NAT源連接埠分配失敗 | 嚴重 | NAT源連接埠分配失敗 | 公網NAT Gateway執行個體配置的EIP個數過少,出現源連接埠分配失敗情況,且丟包>10 packet/s。 說明 該事件暫不支援設定訂閱。 | 嚴重:最近10分鐘高頻觸發源連接埠分配失敗現象,且丟包>10 packet/s。 | 建議增加綁定到公網NAT Gateway執行個體的EIP。具體操作,請參見建立和管理公網NAT Gateway執行個體。 |
problem-nat-datapathUnavailable | NAT資料鏈路不可用 | 嚴重 | NAT資料鏈路不可用 | NAT資料鏈路不可用。過去10分鐘,您的NAT Gateway可用性為0%,即所有流量受影響,您的NAT Gateway資源無法正常工作,可能存在導致停用平台事件,阿里雲工程師正在緊急恢複中。 | 嚴重:最近10分鐘NAT Gateway可用性為0%。 | 如果您已經通過多NAT Gateway部署為業務獲得高可用性,建議進行NAT Gateway切換,具體操作,請參見通過多NAT Gateway部署為業務獲得高可用性;否則,建議您聯絡阿里工程師擷取最新恢複進展。 |
problem-nat-datapathDegraded | NAT資料鏈路降級 | 嚴重 | NAT資料鏈路降級 | NAT資料鏈路降級。過去10分鐘,您的NAT Gateway可用性已低於80%,即20%以上流量受影響,您的NAT Gateway資源無法正常工作,可能存在導致資料包丟棄的平台事件,阿里雲工程師正在緊急恢複中。 | 嚴重:最近10分鐘NAT Gateway可用性<80%,產生丟包。 | |
傳統型負載平衡CLB(Classic Load Balancer) | ||||||
problem-clb-connectionOverLimit | CLB會話超限建立串連丟失 | 嚴重 | CLB會話超限建立串連丟失 | CLB建立串連或並發串連數超出規格,出現建立會話失敗情況,丟棄串連速率較高。 | 嚴重:最近10分鐘高頻觸發並發會話數超限,產生丟包。 | 建議升配或更改為網路型負載平衡NLB(Network Load Balancer)或應用型負載平衡ALB(Application Load Balancer)執行個體。 具體操作,請參見管理CLB配額。NLB和ALB的產品介紹,請參見什麼是網路型負載平衡NLB、什麼是應用型負載平衡ALB。 |
problem-clb-bandwidthOverLimit | CLB頻寬規格超限丟包 | 嚴重 | CLB頻寬規格超限丟包 | CLB實際流量超出頻寬規格,出現丟包情況。 | 嚴重:最近10分鐘高頻觸發頻寬規格超限,且丟包量>100 bps。 | 建議擴容。具體操作,請參見調整效能保障型執行個體的規格。 |
problem-clb-connectionFail | CLB失敗串連數驟增 | 嚴重 | CLB失敗串連數驟增 | CLB因為(後端伺服器規格超限/負載過高/業務異常),出現失敗串連突增情況。 | 嚴重:最近10分鐘CLB建立串連失敗數驟增,滿足以下全部條件後觸發警示: 條件一:失敗串連數>100/s; 條件二:失敗串連數相較上個10分鐘視窗環比上升30%; 條件三:通過AI學習歷史失敗串連數平穩基準範圍,10分鐘裡連續存在突破智能基準上限>30%。 | 視原因建議(升配後端伺服器規格/升配CLB規格/檢查後端業務狀態)。 具體操作,請參見管理CLB配額。 |
NLB | ||||||
problem-nlb-connectionFail | NLB失敗串連數驟增 | 嚴重 | NLB失敗串連數驟增 | NLB執行個體的VIP(Virtual IP address)已經連續十分鐘出現失敗串連數突增現象,可能存在原因:
| 嚴重:NLB執行個體失敗串連數同時滿足以下條件觸發警示。 條件一:在持續610秒的監控視窗內,連續3分鐘失敗串連數突破智能預測基準上邊界比例>100%; 條件二:在持續610秒的監控視窗內,連續7分鐘失敗串連數環比上個小時上升≥50%; 條件三:在持續610秒的監控視窗內,連續8分鐘失敗串連數≥1000。 | 建議檢查後端伺服器水位或業務狀態是否異常。 |
problem-nlb-newConnectionSurge | NLB建立串連丟棄 | 嚴重 | NLB建立串連丟棄 | NLB執行個體的VIP因為建立串連數驟增,連續出現(毫秒/秒級)建立串連請求丟棄現象。 | 嚴重:NLB執行個體的串連數同時滿足以下條件觸發警示。 條件一:VIP每秒丟棄串連數,在10分鐘裡超過8個點>0; 條件二:VIP每秒建立串連數,在10分鐘裡超過8個點<200000。 |
建議拆分多個NLB執行個體,將流量分配到不同的NLB執行個體或聯絡客戶經理單獨報備。 |
problem-nlb-newConnectionOverLimit | NLB建立串連超限 | 嚴重 | NLB建立串連超限 | NLB執行個體的VIP建立串連已經超出NLB單個VIP自動彈性上限,連續出現建立串連請求丟棄現象。 | 嚴重:NLB執行個體的串連數同時滿足以下條件觸發警示。 條件一:VIP每秒丟棄串連數,在10分鐘裡超過8個點>0; 條件二:VIP每秒建立串連數,在10分鐘裡超過8個點≥200000。 | |
problem-nlb-concurrentConnectionOverLimit | NLB並發串連超限 | 嚴重 | NLB並發串連超限 | NLB執行個體的VIP並發串連數已經超出NLB單個VIP自動彈性上限,連續出現建立串連請求丟棄現象。 | 嚴重:NLB執行個體的串連數同時滿足以下條件觸發警示。 條件一:VIP每秒丟棄串連數,在10分鐘裡超過8個點>0; 條件二:VIP最大並發串連數,在10分鐘裡超過8個點>5000000。 | |
ALB | ||||||
problem-alb-intranetBandwidthOverLimit | ALB私網頻寬超限產生丟包 | 嚴重 | ALB私網頻寬超限產生丟包 | ALB執行個體的VIP地址上出方向或入方向頻寬達到上限,ALB網域名稱解析的單一VIP有頻寬限額。 | 嚴重:ALB執行個體丟棄流量,在10分鐘裡超過8個點>100 bps。 | 建議為ALB執行個體設定CNAME網域名稱解析。具體操作,請參見設定CNAME網域名稱解析。 |
problem-alb-sessionOverLimit | ALB會話超限導致建立串連丟失 | 嚴重 | ALB會話超限導致建立串連丟失 | ALB執行個體的VIP地址上建立串連或並發串連數超出上限,出現建立會話失敗情況。ALB網域名稱解析的單一VIP有建立串連數限額。 | 嚴重:ALB執行個體每秒丟棄串連數,在10分鐘裡超過8個點>0。 | |
problem-alb-qpsOverLimit | ALB QPS超限產生503錯誤碼 | 嚴重 | ALB QPS超限產生503錯誤碼 | ALB執行個體的VIP地址上最大每秒請求數(QPS)達到VIP上限,ALB網域名稱解析的單一VIP有QPS限額。 | 嚴重:ALB執行個體每秒丟棄請求數,在10分鐘裡超過8個點>200 qps,且持續10分鐘環比7分鐘之前,執行個體每秒丟棄請求數環比上升≥30%。 | |
雲企業網CEN(Cloud Enterprise Network) | ||||||
problem-cen-routeOverLimit | CEN路由數量超限 | 嚴重 | CEN路由數量超限 | CEN路由配額超限,可能引起網路問題。 | 嚴重:CEN路由配額超限,引起網路問題。 | 建議升級轉寄路由器TR(Transit Router)具體操作,請參見升級基礎版轉寄路由器。 |
TR | ||||||
problem-cen-vpcAttachBandwidthOverLimit | VPC串連頻寬超限丟包 | 嚴重 | VPC串連頻寬超限丟包 | CEN轉寄路由器實際流量超出頻寬規格,出現丟包情況。 | 嚴重:入方向丟包率,在10分鐘裡超過5個點>0。 | 建議擴容,提升頻寬峰值。具體操作,請參見管理雲企業網配額。 |
problem-cen-peerAttachBandwidthOverLimit | 跨域串連頻寬超限丟包 | 嚴重 | 跨域串連頻寬超限丟包 | CEN轉寄路由器實際流量超出頻寬規格,出現丟包情況。 | 嚴重:TR執行個體實際流量同時滿足以下條件觸發警示。 條件一:流出頻寬峰值利用率,在10分鐘裡超過8個點≥90%。 條件二:出方向限速丟包速率,在10分鐘裡超過8個點>100 pps。 | 建議擴容,提升頻寬峰值。具體操作,請參見管理雲企業網配額。 |
風險事件
事件code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 警示規則 | 使用者側處理建議 |
公網執行個體 | ||||||
risk-internetPacketLoss | 公網鏈路丟包風險 | 警告 | 公網鏈路丟包風險 | 阿里雲某地區到另一地區某電訊廠商的物理鏈路發生了丟包警示,則當前帳號在此鏈路的頻寬流量可能受到影響(最近十分鐘頻寬大於0.5 Mbps或者鏈路丟包率超過50%)。 重要 監控該事件之前,請先開通指定地區或IP的公網資料。具體操作,請參見開通公網流量分析。 | 嚴重:公網鏈路丟包率>50%或發生全國性丟包(即目的部分為中國-*電訊廠商),且最近10分鐘平均頻寬為0.05 Mbps。 警告:公網鏈路丟包率<50%,且最近10分鐘平均頻寬>0.5 Mbps。 | 請關注這條鏈路上的執行個體頻寬是否符合實際業務要求(可參考流量分析中五元組資料),若有異常可考慮將關鍵業務遷移到其他地區;若無異常可忽略此警示。 |
risk-internetBandwidthOverlimit | 公網頻寬超限丟包風險 | 警告 | 公網頻寬超限丟包風險 | 根據歷史資料統計,在未來某一時刻執行個體實際頻寬流量超出當前規格的發生機率大於90%。 | 警告:某一時刻流量超出規格的機率>90%,產生丟包。 | 建議關注,若出現超規格情況建議擴容。 |
VPN Gateway | ||||||
risk-vpn-bpsOverLimit | VPN頻寬超限風險 | 警告 | VPN頻寬超限風險 | VPN執行個體轉寄流量最近十分鐘頻寬利用率有3次超過90%。 | 警告:頻寬利用率,在10分鐘裡超過3個點>90%。 | 警告:頻寬利用率,在10分鐘裡超過8個點高於30% |
risk-vpn-bgpRouteLimit | BGP動態路由數量超限風險 | 警告 | BGP動態路由數量超限風險 | VPN執行個體最近十分鐘學習到的BGP動態路由數量已超過執行個體BGP路由配額的90%。 | 警告:路由利用率,在10分鐘裡超過1個點>90%。 | 建議關注,若出現超規格情況建議您可以根據實際網路規劃在對端VPN網關進行網段彙總。 |
Express Connect | ||||||
risk-ec-physicalConnectionFail | 專線連接埠/鏈路故障 | 警告 | 專線連接埠/鏈路故障 | 電訊廠商物理專線或裝置連接埠故障導致業務中斷。 | 警告:監控分鐘級的VBR執行個體IDC到VPC方向流入速率,若同時滿足以下條件,則觸發警示。 條件一:3≤專線連接埠下跌次數<20; 條件二:專線連接埠下跌連續2個時間點以上; 條件三:非全量專線連接埠下跌狀態。 | 建議您聯絡您的商務經理溝通處理。 |
risk-ec-bgpRouterFail | BGP串連故障 | 警告 | BGP串連故障 | 物理專線網路連通性故障或BGP配置異常,導致BGP串連故障和路由丟失。 | 警告:BGP串連狀態從已串連變成其他狀態,則觸發警示。 | 建議您聯絡您的商務經理溝通處理。 |
risk-ec-inTrafficDroppedToZero | VBR入方向流量陡降 | 警告 | VBR入方向流量陡降 | 電訊廠商物理專線或裝置連接埠故障導致VBR入方向流量陡降。 | 警告:監控分鐘級的VBR執行個體IDC到VPC方向流入速率,若同時滿足以下條件,則觸發警示。 條件一:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌≥99%; 條件二:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌絕對值≥1 Mbps; 條件三:持續3分鐘,每分鐘環比前15、30和60分鐘的平均速率下跌絕對值≥0.5 Mbps; 條件四(智能基準警示):通過學習VBR執行個體的歷史流入速率周期性規律,預測下一周期流入速率穩定區間,若在周期到達時,3分鐘內持續2分鐘突破預測區間下限≥99%,則判定為異常下跌。 | 請確認是否是正常業務流量行為,或是否存在健全狀態檢查切換,若存在業務受損,請聯絡您的商務經理處理。 |
risk-ec-outTrafficDroppedToZero | VBR出方向流量陡降 | 警告 | VBR出方向流量陡降 | 電訊廠商物理專線或裝置連接埠故障導致VBR出方向流量陡降。 | 警告:監控分鐘級的VBR執行個體VPC到IDC方向流出速率,若同時滿足以下條件,則觸發警示。 條件一:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌≥99%; 條件二:持續3分鐘,每分鐘環比前7分鐘的平均速率下跌絕對值≥1 Mbps; 條件三: 持續3分鐘,每分鐘環比前15、30和60分鐘的平均速率下跌絕對值≥0.5 Mbps; 條件四(智能基準警示):通過學習VBR執行個體的歷史流出速率周期性規律,預測下一周期流出速率穩定區間,若在周期到達時,3分鐘內持續2分鐘突破預測區間下限≥99%,則判定為異常下跌。 | 請確認是否是正常業務流量行為,或是否存在健全狀態檢查切換,若存在業務受損,請聯絡您的商務經理處理。 |
操作導航
操作 | 說明及相關文檔 |
查看事件 | 您可以通過以下方式查看事件:
|
訂閱事件 | 您可以通過CloudMonitor自主訂閱事件,訂閱後,將以電話、簡訊、郵件等方式及時通知您事件的發生與進展,請參見設定NIS事件訂閱。 |
解決事件 | 查看事件之後,您可以根據相應的建議解決問題,請參見事件匯總。 |