系統事件用於記錄和通知雲資源資訊,例如營運任務執行情況、資源是否出現異常和資源狀態變化等。您可以通過系統事件擷取ECS資源的風險和異常資訊,例如
執行個體因底層升級需遷移或因系統維護重啟了某一執行個體等,然後及時響應和處理系統事件,避免因ECS資源可用性或效能受損而影響業務。本文匯總了Elastic Compute Service支援的系統事件(包括計劃內營運事件、非預期營運事件、執行個體費用事件和執行個體狀態變化事件等),並為各系統事件提供處理建議。如果事件Code列為未定義,例如執行個體狀態改變通知(Instance:StateChange),代表該系統事件不支援通過ECS控制台和ECS事件OpenAPI查詢。
計劃內營運事件
在執行個體作業系統內部進行重啟操作時,無法使事件對應的維護動作生效。因此,本文涉及的重啟執行個體操作指的是通過ECS控制台或調用API方式進行,具體操作,請參見重啟執行個體或RebootInstance - 重啟執行個體。
事件Code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 使用者側處理建議 |
SystemMaintenance.Reboot | 因系統維護執行個體重啟 | 嚴重 |
| 阿里雲檢測到ECS執行個體所在的底層宿主機存在潛在的軟硬體故障風險,該風險會導致ECS執行個體重啟,且該風險還未直接成為故障,在系統維護計劃執行時間前24~48小時發送該系統事件。 | 建議您根據需要選擇一種回應程式式: 說明
|
SystemMaintenance.Stop | 因系統維護執行個體停止 | 嚴重 |
| 阿里雲檢測到ECS執行個體的底層宿主機存在潛在的軟硬體故障風險,該風險會導致ECS執行個體關機並停止,且該風險還未直接成為故障,在系統維護計劃執行時間前24~48小時發送該系統事件。 | 建議您根據需要選擇一種回應程式式:
說明 您可以修改執行個體的維護屬性,指定ECS執行個體遇到營運事件後的預設行為,更多資訊,請參見修改執行個體維護屬性。 |
SystemMaintenance.Redeploy | 因系統維護執行個體重新部署 | 嚴重 |
| 阿里雲檢測到ECS執行個體的底層宿主機存在潛在的軟硬體故障風險,該風險會導致ECS執行個體重新部署,且該風險還未直接成為故障,在系統維護計劃執行時間前24~48小時發送該系統事件。 重要 使用了本地SSD盤或者本地HDD盤的執行個體會重新初始化資料盤,本地碟上的資料會被清空。 | 建議您完成準備工作,包括修改/etc/fstab設定檔、備份資料等,然後根據需要選擇一種回應程式式:
說明
|
SystemMaintenance.IsolateErrorDisk | 因系統維護隔離壞盤 | 嚴重 |
| 阿里雲檢測到ECS執行個體的本地碟出現軟硬體損壞時,立即發送該系統事件。 重要 根據帶有本地碟的ECS執行個體規格不同,部分ECS執行個體規格需要重啟並隔離受損磁碟,部分ECS執行個體規格支援線上隔離並修複受損磁碟。 | 建議您完成準備工作,包括修改/etc/fstab設定檔、備份資料等,然後選擇合適的時間授權隔離壞盤(線上隔離,無需重啟執行個體)。 說明 詳細的營運流程說明,請參見本地碟執行個體營運情境③。 |
SystemMaintenance.ReInitErrorDisk | 因系統維護重新初始化壞盤 | 嚴重 |
| 阿里雲檢測到ECS執行個體的本地磁碟出現軟硬體損壞,並且更換了本地碟執行個體所在宿主機上損壞的本地碟後,立即發送該系統事件,通常在您授權隔離壞盤後五個工作日內。 重要 根據帶有本地碟的ECS執行個體規格不同,部分ECS執行個體規格需要重啟並隔離受損磁碟,部分ECS執行個體規格支援線上隔離並修複受損磁碟。 | 建議您選擇合適的時間授權恢複本地碟(線上恢複,無需重啟執行個體)。 說明 詳細的營運流程說明,請參見本地碟執行個體營運情境③。 |
SystemMaintenance.RebootAndIsolateErrorDisk | 因系統維護重啟執行個體並隔離壞盤 | 嚴重 |
| 阿里雲檢測到ECS執行個體的本地磁碟出現軟硬體損壞,在執行線上隔離壞盤失敗時,立即發送該系統事件。 重要 根據帶有本地碟的ECS執行個體規格不同,部分ECS執行個體規格需要重啟並隔離受損磁碟,部分ECS執行個體規格支援線上隔離並修複受損磁碟。 | 建議您選擇合適的時間授權隔離壞盤,並自行重啟執行個體(離線隔離,需要重啟執行個體)。 說明 詳細的營運流程說明,請參見本地碟執行個體營運情境③。 |
SystemMaintenance.RebootAndReInitErrorDisk | 因系統維護重啟執行個體並重新初始化壞盤 | 嚴重 |
| 阿里雲檢測到ECS執行個體的本地磁碟出現軟硬體損壞,在執行線上恢複本地碟失敗時,立即發送該系統事件。 重要 根據帶有本地碟的ECS執行個體規格不同,部分ECS執行個體規格需要重啟並隔離受損磁碟,部分ECS執行個體規格支援線上隔離並修複受損磁碟。 | 建議您選擇合適的時間授權恢複本地碟,並自行重啟執行個體(離線恢複,需要重啟執行個體)。 說明 詳細的營運流程說明,請參見本地碟執行個體營運情境③。 |
SystemMaintenance.StopAndRepair | 本地碟執行個體原地維修事件 | 嚴重 |
| 當阿里雲識別到ECS執行個體的底層宿主機存在硬體故障風險,在系統維護計劃執行時間前48~168小時發送該系統事件。 | 建議您選擇合適的時間授權維修本地碟執行個體或重新部署本地碟執行個體。 說明 詳細的營運流程說明,請參見本地碟執行個體營運情境和系統事件。 |
SystemMaintenance.CleanReleasedDisks | EBS熱插拔失敗後的清理事件 | 警告 |
| 當阿里雲識別到ECS執行個體的作業系統中存在因欠費被釋放的一塊或多塊雲端硬碟的配置資訊時,發送該系統事件。 | 建議您選擇合適的時間,授權阿里雲清理已釋放雲端硬碟的配置資訊。 重要 阿里雲會在您授權的指定時間對該執行個體進行關機,然後對雲端硬碟進行清理,清理完成後再次開機。 |
非預期營運事件
事件Code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 使用者側處理建議 |
SystemFailure.Reboot | 因系統錯誤執行個體重啟 | 嚴重 |
| 當阿里雲識別到ECS執行個體因底層宿主機出現了非預期的軟硬體故障(如CPU、記憶體硬體損壞等)被重啟時,立即發送該系統事件。 | 建議您等待執行個體自動重啟完成,然後檢查執行個體和應用是否正常。 重啟過程中,阿里雲會將該執行個體遷移到其他健康的宿主機上。 說明 您可以修改執行個體的維護屬性,指定ECS執行個體遇到營運事件後的預設行為,更多資訊,請參見修改執行個體維護屬性。 |
InstanceFailure.Reboot | 執行個體因作業系統錯誤需重啟 | 嚴重 |
| 當阿里雲識別到ECS執行個體因作業系統內部出現夯機,包括OOM、藍屏、卡死、不停列印串口日誌或核心panic問題時,立即發送該系統事件。 | 建議您等待執行個體自動重啟完成,然後檢查執行個體和應用是否正常。 您可以開啟作業系統的Kdump服務,排查崩潰原因,避免再次引發同類問題。具體操作,請參見Linux執行個體如何開啟Kdump服務或開啟Windows執行個體的核心轉儲(Kernel Memory Dump)功能。 |
SystemFailure.Stop | 因系統錯誤執行個體停止 | 嚴重 |
| 當阿里雲識別到ECS執行個體因底層宿主機出現了軟硬體故障(如CPU、記憶體硬體損壞等)被關機時,立即發送該系統事件。 | 建議您等待執行個體自動停止完成,然後啟動執行個體。 啟動執行個體時,阿里雲會將該執行個體遷移到其他健康的宿主機上。 說明 您可以修改執行個體的維護屬性,指定ECS執行個體遇到營運事件後的預設行為,更多資訊,請參見修改執行個體維護屬性。 |
SystemFailure.Redeploy | 因系統錯誤執行個體重新部署 | 嚴重 |
| 當阿里雲識別到ECS執行個體因底層宿主機出現了軟硬體故障需要重新部署本地碟執行個體時,立即發送該系統事件。 說明 僅依賴宿主機硬體的執行個體支援此類事件,例如掛載本地碟或支援SGX加密計算的執行個體。 | 建議您完成準備工作,包括修改/etc/fstab設定檔、備份資料等,然後根據需要選擇一種回應程式式:
說明 您可以修改執行個體的維護屬性,指定ECS執行個體遇到營運事件後的預設行為,更多資訊,請參見修改執行個體維護屬性。 |
SystemFailure.Delete | 因執行個體建立失敗賬單自動取消 | 嚴重 |
| 當阿里雲識別到ECS執行個體在建立,雖然下單成功但是執行個體建立失敗時,立即發送該系統事件。 | 建議您等待系統自動釋放執行個體,通常在建立失敗五分鐘內自動釋放。 說明 如果您已經完成訂單支付,在執行個體釋放後會收到相應的退款。 為提高執行個體建立成功率,建議您:
|
ErrorDetected | 本地磁碟出現損壞警示 | 嚴重 |
| 當阿里雲識別到ECS執行個體的本地碟出現了非預期的軟硬體損壞,導致該磁碟無法正常進行讀寫時,立即發送該系統事件。 | 建議您完成準備工作,包括修改/etc/fstab設定檔、備份資料等,然後選擇合適的時間操作隔離壞盤並恢複本地碟。 根據執行個體規格的不同,支援的操作也不同,具體說明如下:
說明 詳細的營運流程說明,請參見本地碟執行個體營運情境③。 |
Stalled | 磁碟效能受到嚴重影響 | 嚴重 |
| 當阿里雲識別到ECS執行個體所掛載雲端硬碟出現IO夯,導致雲端硬碟效能受到嚴重影響,無法進行正常讀寫時,立即發送該系統事件。 | 建議您在應用程式層隔離對該雲端硬碟的讀寫操作,或從Server Load Balancer執行個體中暫時移除該執行個體。 |
執行個體因底層升級需遷移事件
事件Code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 使用者側處理建議 |
SystemUpgrade.Migrate | 執行個體因底層升級需遷移 | 嚴重 | 未定義 | 如果阿里雲升級和改造物理基礎設施時,可能影響對應地區和可用性區域中的執行個體,將提前向您發送該系統事件。 | 建議您登入ECS控制台查看系統事件詳情,並按照提示遷移執行個體。具體操作,請參見執行個體因底層升級需遷移。 |
突發效能執行個體效能受限事件
事件Code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 使用者側處理建議 |
Instance:BurstablePerformanceRestricted | 突發效能執行個體效能受限 | 警告 | Instance:BurstablePerformanceRestricted:突發效能執行個體效能受限 | 突發效能執行個體累積CPU積分為0時,立即發送該系統事件。 | 建議您根據需要選擇一種回應程式式:
如果您需要自訂觸發通知的閾值,例如希望在累積CPU積分連續10分鐘小於10時收到通知,可以在CloudMonitor控制台設定閾值警示規則。具體操作,請參見監控突發效能執行個體。 |
狀態變化事件
事件Code | 事件名稱 | 事件等級 | CloudMonitor事件名稱 | 事件說明和影響 | 使用者側處理建議 |
Instance:PreemptibleInstanceInterruption | 搶佔式執行個體中斷通知 | 警告 | Instance:PreemptibleInstanceInterruption:搶佔式執行個體中斷通知 | 在搶佔式執行個體被回收前5分鐘發送該系統事件。 | 建議您:
|
Instance:ModifyInstanceSpec.Reboot | 執行個體因規格變更需重啟生效 | 嚴重 |
| 在執行個體規格發生變更之後,需要通過重啟執行個體來使新規格配置生效。在新訂單生效後7天內,如使用者未主動進行執行個體重啟,系統會強制重啟執行個體,將執行個體規格變更為預期規格。 | 建議您: |
Instance:PerformanceModeChange | 突發效能執行個體效能模式切換 | 警告 | Instance:PerformanceModeChange:突發效能執行個體效能模式切換 | 在突發效能執行個體從無效能約束模式切換為效能約束模式、或者從效能約束模式切換為無效能約束模式時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Instance:StateChange | 執行個體狀態改變通知 | 資訊 | Instance:StateChange:執行個體狀態改變通知 | 在執行個體狀態發生改變時,例如從運行中變為停止中、從停止中變為已停止,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Instance:AutoReactivateCompleted | 完成自動重開機 | 資訊 | Instance:AutoReactivateCompleted:完成自動重開機 | 在您結清了欠費賬單且執行個體完成自動重開機時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Instance:LiveMigrationAcrossDDH | 執行個體在Dedicated Host間熱遷移 | 資訊 | Instance:LiveMigrationAcrossDDH:執行個體在Dedicated Host間熱遷移 | 在執行個體發生熱遷移時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Disk:DiskOperationCompleted | 磁碟操作完成 | 資訊 | Disk:DiskOperationCompleted:磁碟操作完成 | 在手動掛載或卸載了隨用隨付磁碟時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Disk:ConvertToPostpaidCompleted | 轉換磁碟到隨用隨付完成 | 資訊 | Disk:ConvertToPostpaidCompleted:轉換磁碟到隨用隨付完成 | 在訂用帳戶磁碟轉換為隨用隨付磁碟時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Snapshot:CreateSnapshotCompleted | 磁碟快照建立完成 | 資訊 | Snapshot:CreateSnapshotCompleted:磁碟快照建立完成 | 在磁碟的快照建立完成時,產生該系統事件。 | 建議您根據需要判斷是否關注該系統事件,如需關注可以在CloudMonitor控制台設定事件通知。具體操作,請參見訂閱ECS系統事件通知。 |
Snapshot:SnapshotDeleted | 快照刪除完成事件 | 資訊 | Snapshot:SnapshotDeleted:快照刪除完成事件 | 在手動快照或自動快照刪除完成時,產生該系統事件。 | 無 |