ECS系統事件有哪些 - Elastic Compute Service

系統事件由阿里雲定義，用於記錄和通知雲資源的資訊，例如營運任務執行情況、資源是否出現異常、資源狀態變化等。

說明

本文僅說明Elastic Compute Service支援的系統事件，如需瞭解其他產品的系統事件，請參考對應產品的協助文檔。

應用情境

通知風險和異常
對於未在ECS控制台展示的系統事件（如系統維護重啟、執行個體到期等可能影響資源可用性和效能的事件），阿里雲會將這些系統事件推送至ECS控制台展示，部分高危事件還會發送郵件及站內信通知，並支援在ECS控制台或者通過OpenAPI響應。建議您及時響應系統事件以避免業務影響。具體操作，請參見查詢和響應ECS系統事件。
例如，訂用帳戶執行個體即將因到期停止時，在ECS控制台醒目提示您及時續約，避免因到期停止而影響業務。
實現自動化營運
在ECS控制台展示的系統事件均定義了事件狀態，方便區分相應系統營運任務的執行情況。系統狀態變更會同步至CloudMonitor，便於使用者據此建立自動化營運機制。更多事件狀態的資訊，請參見系統事件的狀態和視窗期。
說明
- 每種事件狀態都會對應一個CloudMonitor事件名稱，例如ECS事件Code為InstanceFailure.Reboot支援的事件狀態包括Executing、Executed，則其對應的CloudMonitor事件名稱包括Instance:InstanceFailure.Reboot:Executing、Instance:InstanceFailure.Reboot:Executed。
狀態變化事件包括了一些未在ECS控制台中展示的系統事件，例如執行個體運行狀態變化、搶佔式執行個體中斷等，這些系統事件不支援直接在ECS控制台和通過OpenAPI響應。ECS中沒有針對這些系統事件定義事件狀態，但系統事件產生時仍然會上報至CloudMonitor，方便您根據自身需要搭建事件驅動的自動化營運體系。
例如，您手動啟停執行個體時會產生執行個體狀態改變的系統事件，並不意味著風險或異常，但您希望向自有系統寫入此類動作記錄。這時可以自行為執行個體狀態改變事件設定事件通知，並通過回調等方式將啟停資訊寫入動作記錄。

系統事件類型

系統事件根據觸發原因可分為以下類型：

說明

Elastic Compute Service支援的各類系統事件以及對應的處理建議，請參見ECS系統事件匯總。

類別	說明	是否在ECS控制台展示
計劃內營運事件	阿里雲為提升底層宿主機的安全性而主動升級宿主機軟體，或者主動預測並規避底層宿主機的軟硬體故障風險。如果在執行相應營運任務過程中可能影響ECS資源可用性或造成效能受損，阿里雲會提前告知您執行時間、對象、影響等資訊，您可以在這些系統事件的計劃執行時間內，選擇業務低穀期自行響應系統事件，避免業務在高峰期受到影響。說明計劃內營運事件也稱主動營運事件，是阿里雲基於百萬級伺服器的管理營運經驗，服務上萬家大型企業客戶的能力沉澱，以及達摩院的前沿機器學習演算法，對底層宿主機的軟硬體故障風險進行預測和主動規避。當宿主機上的故障風險無法規避時，阿里雲會通過計劃內營運事件提前通知受影響的ECS使用者，為使用者贏得一定的業務切換的緩衝時間。如果使用者未提前響應計劃類營運事件，故障風險發生時會導致ECS執行個體出現宕機或重啟。	是說明當發生計劃內營運事件的執行個體為巨量資料型或本地SSD型（不包含i4p），該事件將在本地碟執行個體事件下展示。關於更多本地碟事件資訊，請參見本地碟執行個體營運情境和系統事件。
非預期營運事件	當底層宿主機出現突發軟硬體故障，或者執行個體發生OOM、核心錯誤（kernel panic）等情況時，導致執行個體突發重啟、宕機等異常。阿里雲會及時發送非預期營運事件，並儘快恢複ECS資源可用性，同時通知您相應系統營運任務的執行情況。說明非預期營運事件一般指的是因底層宿主機發生了無法預測的故障，或者ECS執行個體的作業系統發生了核心錯誤等問題，導致ECS執行個體突然出現宕機或重啟。因宿主機故障導致ECS執行個體宕機或重啟事件（SystemFailure.Reboot）屬於偶發現象，無法避免。如果違反了單一實例的SLA，阿里雲將根據相關產品的SLA協議進行賠償。因作業系統核心錯誤等問題導致的ECS重啟事件（InstanceFailure.Reboot）一般是因為應用程式引起的，您可以抓取dump檔案分析根因。具體操作，請參見Linux執行個體如何開啟Kdump服務。	是說明當發生非預期營運事件的執行個體為巨量資料型或本地SSD型（不包含i4p），該事件將在本地碟執行個體事件下展示。關於更多本地碟事件資訊，請參見本地碟執行個體營運情境和系統事件。
本地碟執行個體事件	本地碟執行個體事件包括本地磁碟事件（如本地碟損壞）和本地碟執行個體的事件（如因本地碟受損導致執行個體可能無法正常運行、本地碟執行個體底層宿主機出現軟硬體故障等）。說明本地碟執行個體事件僅為展示發生計劃內營運事件或非預期營運事件的巨量資料型或本地SSD型（不包含i4p）執行個體，方便您處理本地碟執行個體事件，並非具體的事件類型。關於本地碟事件說明，請參見本地碟執行個體營運情境和系統事件。	是
突發效能執行個體效能受限事件	突發效能執行個體效能受限事件是指突發效能執行個體的CPU積分已經耗盡，執行個體的CPU將會持續運行在基準效能附近，可能對執行個體的應用運行、執行個體管控、營運等操作產生影響，包括出現訪問緩慢，卡頓等情況的提醒事件。	是
執行個體安全事件	影響執行個體安全的事件，例如執行個體遭遇DDoS攻擊或進入黑洞，導致執行個體的安全受到威脅。	是
執行個體因底層升級需遷移事件	阿里雲在升級和改造物理基礎設施時，可能影響對應地區和可用性區域中的執行個體，您可以根據系統事件的引導遷移執行個體。	是
狀態變化事件	您自行操作執行個體，導致執行個體的生命週期變化，例如手動開關機；或者阿里雲發現執行個體的某些屬性發生變化，進而導致執行個體的生命週期或其他狀態發生變化。包括：生命週期變化事件：例如執行個體運行狀態變化、搶佔式執行個體中斷、快照建立完成。其他屬性變化事件：例如突發效能執行個體效能模式切換、轉換磁碟到隨用隨付完成。	生命週期變化事件：未在ECS控制台展示。其他屬性變化事件：是否在ECS控制台展示和具體事件有關。

系統事件等級

按照對執行個體正常啟動並執行影響程度進行劃分，系統事件分為以下幾個等級：

嚴重：影響重大，需要儘快處理，否則可能導致執行個體無法使用，例如因帳號欠費釋放資源、因執行個體錯誤重新部署執行個體。
警告：有一定影響，需要您在影響持續期間加以關注，或者選擇合適時間處理，例如突發效能執行個體效能受限時可以運行，但無法超過基準效能。
資訊：您自行選擇是否關注即可，例如磁碟快照已建立完成。

系統事件的狀態和視窗期

在ECS控制台中展示的系統事件，按下表所述方式定義事件狀態。

說明

不同系統事件支援的事件狀態，請參見ECS系統事件匯總中的CloudMonitor事件名稱列。

狀態	屬性	說明
Inquiring	中間狀態	問詢中，等待您授權，授權後會進入Executing狀態。
Scheduled	中間狀態	計劃執行營運任務，但尚未開始執行，開始執行後會進入Executing狀態。
Executing	中間狀態	營運任務正在執行中。
Executed	穩定點	營運任務已經執行完成。
Avoided	穩定點	您在使用者操作視窗期內自行遷移了執行個體，規避了系統事件的影響。
Failed	穩定點	營運任務執行失敗。
Canceled	穩定點	系統取消了營運任務。

典型的事件狀態變化示意圖如下所示。

系統事件包括的視窗期如下：

使用者操作視窗期
從發送系統事件到計劃執行時間之間的時間段。您可以在使用者操作視窗期內自行操作，或者等待系統自動執行。時間長度說明如下：
- 計劃內營運事件通常為24~48小時。
  說明
  處於Inquiring狀態的系統事件，沒有時間長度限制，在您授權後才會開始執行營運任務。
- 突發故障、違規操作等非計劃內因素導致的非預期營運事件，通常沒有使用者操作視窗期。
- 訂用帳戶執行個體因到期停止的系統事件為3天。
- 隨用隨付執行個體因帳號欠費停止的系統事件小於1小時。
事件執行視窗期
開始執行任務到任務執行完成之間的時間段。時間長度說明如下：
- 通知修複故障的系統事件通常在10分鐘內完成。
- 突發故障、違規操作等非計劃內因素導致的非預期營運事件，只有短暫的事件執行視窗期。

操作導航

操作	說明及相關文檔
瞭解系統事件	操作前，可參考本文瞭解系統事件名稱、等級、應用情境、使用限制、狀態、命名格式等。
查看系統事件	您可以通過控制台或者阿里雲CLI查看系統事件：在ECS控制台或者通過阿里雲CLI查看，請參見查詢和響應ECS系統事件。在CloudMonitor控制台查看，請參見查詢系統事件。
響應系統事件	對於一些高危系統事件（例如影響ECS資源可用性和造成效能受損的系統事件），建議您及時通過控制台或者OpenAPI響應，按照建議進行處理，以免影響業務運行。查看所有事件的處理建議並處理，請參見ECS系統事件匯總。查看待處理事件並處理，請參見查詢和響應ECS系統事件。處理本地碟相關係統事件，請參見本地碟執行個體營運情境和系統事件。
監控系統事件	為保障ECS執行個體上業務啟動並執行穩定性以及實現自動化營運，建議您設定事件通知來監聽底層環境的變化。設定事件通知後，系統會推送訊息到您設定的通知方式。通過CloudMonitor配置警示規則，推送事件通知，請參見訂閱ECS系統事件通知。通過DingTalk機器人推送事件通知，請參見通過DingTalk機器人發送事件通知。
修改系統事件相關設定	根據需要修改系統事件相關設定：設定響應系統事件後，是否重啟或重新部署執行個體，請參見修改執行個體維護屬性。對於有重啟計劃的系統事件，設定響應系統事件和執行個體的重啟時間，請參見修改預約重啟時間。