全部產品
Search
文件中心

Elastic Compute Service:ECS系統事件概述

更新時間:Aug 23, 2024

系統事件由阿里雲定義,用於記錄和通知雲資源的資訊,例如營運任務執行情況、資源是否出現異常、資源狀態變化等。

說明

阿里雲有眾多產品支援系統事件,例如ECS、RDS、SLB等。本文僅說明Elastic Compute Service支援的系統事件,如需瞭解其他產品的系統事件,請參考對應產品的協助文檔。

使用限制

已停售的執行個體規格類型系列不支援系統事件功能,更多資訊,請參見已停售的執行個體規格

應用情境

  • 通知風險和異常

    針對未在ECS控制台展示的系統事件(包括影響ECS資源可用性和造成效能受損的系統事件),例如因系統維護重啟執行個體等營運事件、執行個體到期等費用預警事件,阿里雲會將系統事件推送至ECS控制台展示,部分高危事件還會發送郵件、站內信通知,並支援在ECS控制台或者通過OpenAPI響應。建議您及時響應這些系統事件,避免因ECS資源可用性或效能受損影響業務。具體操作,請參見查詢和響應ECS系統事件

    例如,訂用帳戶執行個體即將因到期停止時,在ECS控制台醒目提示您及時續約,避免因到期停止而影響業務。

  • 實現自動化營運

    在ECS控制台展示的系統事件均定義了事件狀態,方便區分相應系統營運任務的執行情況,而且系統事件產生時及狀態變化時會上報至CloudMonitor,方便您進一步根據自身需要搭建事件驅動的自動化營運體系。更多事件狀態的資訊,請參見系統事件的狀態和視窗期

    說明

    每種事件狀態都會對應一個CloudMonitor事件名稱,例如ECS事件Code為InstanceFailure.Reboot支援的事件狀態包括Executing、Executed,則其對應的CloudMonitor事件名稱包括Instance:InstanceFailure.Reboot:Executing、Instance:InstanceFailure.Reboot:Executed。

    狀態變化事件包括了一些未在ECS控制台中展示的系統事件,例如執行個體運行狀態變化、搶佔式執行個體中斷等,這些系統事件不支援直接在ECS控制台和通過OpenAPI響應。ECS中沒有針對這些系統事件定義事件狀態,但系統事件產生時仍然會上報至CloudMonitor,方便您根據自身需要搭建事件驅動的自動化營運體系。

    例如,您手動啟停執行個體時會產生執行個體狀態改變的系統事件,並非意味著風險或異常,但您希望向自有系統寫入此類動作記錄。這時可以自行為執行個體狀態改變事件設定事件通知,並通過回調等方式將啟停資訊寫入動作記錄。

系統事件類型

系統事件由阿里雲定義,用於記錄和通知雲資源的資訊。按照起因進行分類,系統事件可以分為:

說明

Elastic Compute Service支援的各類系統事件以及對應的處理建議,請參見ECS系統事件匯總

類別

說明

是否在ECS控制台展示

計劃內營運事件

阿里雲為提升底層宿主機的安全性而主動升級宿主機軟體,或者主動預測並規避底層宿主機的軟硬體故障風險。如果在執行相應營運任務過程中可能影響ECS資源可用性或造成效能受損,阿里雲會提前告知您執行時間、對象、影響等資訊,您可以在這些系統事件的計劃執行時間內,選擇業務低穀期自行響應系統事件,避免業務在高峰期受到影響。

說明

計劃內營運事件也稱主動營運事件,是阿里雲基於百萬級伺服器的管理營運經驗,服務上萬家大型企業客戶的能力沉澱,以及達摩院的前沿機器學習演算法,對底層宿主機的軟硬體故障風險進行預測和主動規避。當宿主機上的故障風險無法規避時,阿里雲會通過計劃內營運事件提前通知受影響的ECS使用者,為使用者贏得一定的業務切換的緩衝時間。如果使用者未提前響應計劃類營運事件,故障風險發生時會導致ECS執行個體出現宕機或重啟。

說明

當發生計劃內營運事件的執行個體為巨量資料型或本地SSD型(不包含i4p),該事件將在本地碟執行個體事件下展示。關於更多本地碟事件資訊,請參見本地碟執行個體營運情境和系統事件

非預期營運事件

當底層宿主機出現突發軟硬體故障,或者執行個體發生OOM、核心錯誤(kernel panic)等情況時,導致執行個體突發重啟、宕機等異常。阿里雲會及時發送非預期營運事件,並儘快恢複ECS資源可用性,同時通知您相應系統營運任務的執行情況。

說明

非預期營運事件一般指的是因底層宿主機發生了無法預測的故障,或者ECS執行個體的作業系統發生了核心錯誤等問題,導致ECS執行個體突然出現宕機或重啟。

  • 因宿主機故障導致ECS執行個體宕機或重啟事件(SystemFailure.Reboot)屬於偶發現象,無法避免。如果違反了單一實例的SLA,阿里雲將根據相關產品的SLA協議進行賠付。

  • 因作業系統核心錯誤等問題導致的ECS重啟事件(InstanceFailure.Reboot)一般是因為應用程式導致,您可以抓取dump檔案分析根因。具體操作,請參見Linux執行個體如何開啟Kdump服務

說明

當發生非預期營運事件的執行個體為巨量資料型或本地SSD型(不包含i4p),該事件將在本地碟執行個體事件下展示。關於更多本地碟事件資訊,請參見本地碟執行個體營運情境和系統事件

本地碟執行個體事件

本地碟執行個體事件包括本地磁碟事件(如本地碟損壞)和本地碟執行個體的事件(如因本地碟受損導致執行個體可能無法正常運行、本地碟執行個體底層宿主機出現軟硬體故障等)。

說明

本地碟執行個體事件僅為展示發生計劃內營運事件或非預期營運事件的巨量資料型或本地SSD型(不包含i4p)執行個體,方便您處理本地碟執行個體事件,並非具體的事件類型。關於本地碟事件說明,請參見本地碟執行個體營運情境和系統事件

突發效能執行個體效能受限事件

突發效能執行個體效能受限事件是指突發效能執行個體的CPU積分已經耗盡,執行個體的CPU將會持續運行在基準效能附近,可能對執行個體的應用運行、執行個體管控、營運等操作產生影響,包括出現訪問緩慢,卡頓等情況的提醒事件。

執行個體安全事件

影響執行個體安全的事件,例如執行個體遭遇DDoS攻擊或進入黑洞,導致執行個體的安全受到威脅。

執行個體因底層升級需遷移事件

阿里雲在升級和改造物理基礎設施時,可能影響對應地區和可用性區域中的執行個體,您可以根據系統事件的引導遷移執行個體。

狀態變化事件

您自行操作執行個體,導致執行個體的生命週期變化,例如手動開關機;或者阿里雲發現執行個體的某些屬性發生變化,進而導致執行個體的生命週期或其他狀態發生變化。包括:

  • 生命週期變化事件:例如執行個體運行狀態變化、搶佔式執行個體中斷、快照建立完成。

  • 其他屬性變化事件:例如突發效能執行個體效能模式切換、轉換磁碟到隨用隨付完成。

  • 生命週期變化事件:未在ECS控制台展示。

  • 其他屬性變化事件:是否在ECS控制台展示和具體事件有關。

系統事件等級

按照對執行個體正常啟動並執行影響程度進行劃分,系統事件分為以下幾個等級:

  • 嚴重:影響重大,需要儘快處理,否則可能導致執行個體無法使用,例如因帳號欠費釋放資源、因執行個體錯誤重新部署執行個體。

  • 警告:有一定影響,需要您在影響持續期間加以關注,或者選擇合適時間處理,例如突發效能執行個體效能受限時可以運行,但無法超過基準效能。

  • 資訊:您自行選擇是否關注即可,例如磁碟快照已建立完成。

系統事件的狀態和視窗期

在ECS控制台中展示的系統事件,按下表所述方式定義事件狀態。

說明

不同系統事件支援的事件狀態,請參見ECS系統事件匯總中的CloudMonitor事件名稱列。

狀態

屬性

說明

Inquiring

中間狀態

問詢中,等待您授權,授權後會進入Executing狀態。

Scheduled

中間狀態

計劃執行營運任務,但尚未開始執行,開始執行後會進入Executing狀態。

Executing

中間狀態

營運任務正在執行中。

Executed

穩定點

營運任務已經執行完成。

Avoided

穩定點

您在使用者操作視窗期內自行遷移了執行個體,規避了系統事件的影響。

Failed

穩定點

營運任務執行失敗。

Canceled

穩定點

系統取消了營運任務。

典型的事件狀態變化示意圖如下所示。

系統事件包括的視窗期如下:

  • 使用者操作視窗期

    從發送系統事件到計劃執行時間之間的時間段。您可以在使用者操作視窗期內自行操作,或者等待系統自動執行。時間長度說明如下:

    • 計劃內營運事件通常為24~48小時。

      說明

      處於Inquiring狀態的系統事件,沒有時間長度限制,在您授權後才會開始執行營運任務。

    • 突發故障、違規操作等非計劃內因素導致的非預期營運事件,通常沒有使用者操作視窗期。

    • 訂用帳戶執行個體因到期停止的系統事件為3天。

    • 隨用隨付執行個體因帳號欠費停止的系統事件小於1小時。

  • 事件執行視窗期

    開始執行任務到任務執行完成之間的時間段。時間長度說明如下:

    • 通知修複故障的系統事件通常在10分鐘內完成。

    • 突發故障、違規操作等非計劃內因素導致的非預期營運事件,只有短暫的事件執行視窗期。

ECS事件Code和CloudMonitor事件名稱的格式

ECS事件Code、CloudMonitor事件名稱遵循了一定的命名格式,便於您理解事件的含義。格式如下:

  • ECS事件Code:包括事件起因、對資源的影響的資訊,格式為<事件起因>.<對資源的影響>

  • CloudMonitor事件名稱:包括資源類型、事件起因、對資源的影響、事件狀態的資訊,格式為<資源類型>:<事件起因>.<對資源的影響>:<事件狀態>

說明

並非所有ECS事件Code和CloudMonitor事件名稱都會包括所有資訊,例如CloudMonitor事件名稱Disk:ErrorDetected:Executing代表磁碟已經出現損壞,因此無需包括對資源後續影響的資訊。

下表通過幾個樣本說明ECS事件Code和CloudMonitor事件名稱中包含的資訊。

說明

如果ECS事件Code樣本列為未定義,代表該系統事件未在ECS控制台中展示,不支援直接在ECS控制台和通過OpenAPI響應。更多事件說明,請參見ECS系統事件匯總

類別

ECS事件Code樣本

CloudMonitor事件名稱樣本

說明

計劃內營運事件

SystemMaintenance.Reboot

Instance:SystemMaintenance.Reboot:Inquiring

  • 資源類型:Instance代表執行個體。

  • 事件起因:SystemMaintenance代表阿里雲主動發起的系統營運任務。

  • 對資源的影響:Reboot代表執行該營運任務時會重啟執行個體。

  • 事件狀態:Inquiring代表正在問詢中,等待您授權後才會重啟執行個體。

非預期營運事件

ErrorDetected

Disk:ErrorDetected:Executing

  • 資源類型:Disk代表雲端硬碟。

  • 事件起因:ErrorDetected代表本地碟出現損壞。

  • 事件狀態:Executing代表尚未修複本地碟損壞問題。

生命週期變化事件

Snapshot:CreateSnapshotCompleted

Snapshot:CreateSnapshotCompleted

  • 資源類型:Snapshot代錶快照。

  • 事件起因:CreateSnapshotCompleted代錶快照已建立完成。

操作導航

操作

說明及相關文檔

瞭解系統事件

操作前,可參考本文瞭解系統事件Code、名稱、等級、應用情境、使用限制、狀態、命名格式等。

查看系統事件

您可以在通過控制台或者阿里雲CLI查看系統事件:

響應系統事件

對於一些高危系統事件(例如影響ECS資源可用性和造成效能受損的系統事件),建議您及時通過控制台或者OpenAPI響應,按照建議進行處理,以免影響業務運行。

監控系統事件

為保障ECS執行個體上業務啟動並執行穩定性以及實現自動化營運,建議您設定事件通知來監聽底層環境的變化。設定事件通知後,系統會推送訊息到您設定的通知方式。

修改系統事件相關設定

根據需要修改系統事件相關設定: