全部產品
Search
文件中心

Elastic Compute Service:本地碟執行個體營運情境和系統事件

更新時間:Jun 19, 2024

由於本地碟不提供資料高可用能力,為提升本地碟的使用體驗,阿里雲提供了豐富的本地碟營運能力,方便您及時瞭解本地碟執行個體是否發生異常並及時採取行動。本文介紹常見的營運情境以及相關係統事件。

常見營運情境及相關係統事件

本地碟執行個體常見的營運情境及相關係統事件如下圖所示。

說明

您可以通過修改執行個體維護屬性自訂執行個體自動回復的方式,例如執行個體維護屬性為自動重新部署,則在自動回復執行個體時預設會進入重新部署執行個體相關的情境。更多資訊,請參見修改執行個體維護屬性

ECS Bare Metal Instance執行個體還可以安裝外掛程式xdragon_hardware_detect_plugin,定期檢測ECS Bare Metal Instance執行個體上的本地碟的健康狀態。具體操作,請參見安裝監控外掛程式

上述情境中相關係統事件的說明,請參見:

說明

為避免影響業務,在執行營運任務前請注意業務的可用性和資料備份,例如在應用程式層切換流量、從Server Load Balancer執行個體中移除ECS執行個體、備份磁碟的資料等。

情境①

SystemMaintenance.Reboot對應的營運流程如下:

  1. 您收到計劃重啟執行個體的通知。

  2. 您按需選擇一種回應程式式。

    • 不希望在計劃的時間段內重啟執行個體,自行修改預約重啟時間。具體操作,請參見修改預約重啟時間

    • 在使用者操作視窗期內自行重啟執行個體。具體操作,請參見重啟執行個體

      說明

      必須在ECS控制台重啟執行個體或調用API RebootInstance,在執行個體內部重啟無效。

    • 等待系統自動重啟執行個體。

  3. 您檢查執行個體和應用是否正常。

SystemMaintenance.Reboot支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期

情境②

SystemMaintenance.Redeploy對應的營運流程如下:

  1. 您收到計劃重新部署本地碟執行個體的通知。

  2. 您完成準備工作,包括修改/etc/fstab設定檔、備份資料等。

    更多準備工作的資訊,請參見重新部署本地碟執行個體的前提條件章節。

  3. 您按需選擇一種回應程式式。

    • 在使用者操作視窗期內自行重新部署本地碟執行個體。具體操作,請參見重新部署本地碟執行個體

    • 等待系統自動重新部署本地碟執行個體。

    說明

    重新部署本地碟執行個體後,執行個體會遷移到新的物理機上並重新初始化本地碟,本地碟上的資料會被清空。

  4. 您檢查執行個體和應用是否正常,並按需同步資料。

SystemMaintenance.Redeploy支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期

情境③

SystemFailure.Reboot對應的營運流程:

  1. 系統開始自動重啟執行個體。

  2. 您收到重啟執行個體的通知。

    執行個體自動重啟中,您無需操作,等待完成即可。

  3. 您檢查執行個體和應用是否正常。

SystemFailure.Reboot支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期

情境④

SystemFailure.Redeploy對應的營運流程:

  1. 您收到計劃重新部署本地碟執行個體的通知。

  2. 您完成準備工作,包括修改/etc/fstab設定檔、備份資料等。

    更多準備工作的資訊,請參見重新部署本地碟執行個體的前提條件章節。

  3. 您按需選擇一種回應程式式。

    • 在使用者操作視窗期內自行重新部署本地碟執行個體。具體操作,請參見重新部署本地碟執行個體

    • 等待系統自動重新部署本地碟執行個體。

    說明

    重新部署本地碟執行個體後,執行個體會遷移到新的物理機上並重新初始化本地碟,本地碟上的資料會被清空。

  4. 您檢查執行個體和應用是否正常,並按需同步資料。

SystemFailure.Redeploy支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期

情境⑤

針對情境⑤,您可以將執行個體重新部署到其他宿主機或者僅更換壞盤。更換壞盤時,請注意以下事項:

  • 並非所有本地碟執行個體的磁碟都支援磁碟隔離,只有系統事件的操作中包含磁碟隔離時,您才能隔離受損磁碟。

  • 磁碟隔離和磁碟維修為兩個獨立的操作,磁碟維修的前提是先進行磁碟隔離,但磁碟隔離後並不一定能維修,即並非所有執行個體都支援本地碟的維修。只有當阿里雲發送恢複磁碟的通知時,您才能發起維修。

  • 重新部署執行個體可以快速恢複本地碟可用性,但會丟失所有本地碟的資料。具體操作,請參見重新部署本地碟執行個體

  • 更換壞盤可以保留除壞盤外其他本地碟的資料,對應的營運流程如下:

    1. 您收到磁碟故障以及計劃隔離壞盤的通知。

    2. 您完成準備工作,包括修改/etc/fstab設定檔、備份資料等。

    3. 如果系統事件中包括隔離壞盤事件或對應操作,您響應通知,授權隔離壞盤。

    4. 如果系統事件中包括Reboot事件或對應操作,您需要重啟執行個體。

    5. 阿里雲在宿主機上移除壞盤,並插入新盤,然後發送恢複磁碟的通知。

    6. 如果系統事件中包括恢複磁碟事件或對應操作,您響應通知,授權恢複磁碟。

    7. 如果系統事件中包括Reboot事件或對應操作,您需要重啟執行個體。

    說明

    更換壞盤需要您和阿里雲配合完成,具體操作,請參見隔離損壞的本地碟隔離損壞的本地碟(CLI)

    更換壞盤相關係統事件支援的事件狀態和對應的變化示意圖如下。

情境⑥

針對情境⑥,您可以將執行個體重新部署到其他宿主機或者原地維修。原地維修時,請注意以下事項:

  • 原地維修並不能保證100%資料無損也無法保證100%維修成功,建議您在授權維修前,對關鍵業務資料進行備份。

  • 並非所有本地碟執行個體的磁碟都支援停機維修。

  • 維修期間,該本地碟執行個體無法啟動,但該執行個體還會根據執行個體的計費方式正常計費。

  • 原地維修的周期為14個工作日,在維修期間您可以通過重新部署或釋放維修中的執行個體,終止維修流程。

  • 重新部署執行個體可以快速恢複本地碟可用性,但會丟失所有本地碟的資料。具體操作,請參見重新部署本地碟執行個體

  • 授權維修對應的營運流程如下:

    1. 您收到本地碟執行個體原地維修事件的通知。

    2. 您按需選擇一種回應程式式。

      • 在使用者操作視窗期內自行停止執行個體並授權維修。

      • 等待系統自動執行停機維修操作。

    3. 阿里雲對宿主機上的硬體進行維修,維修完成後,發送維修完成事件。

    4. 您檢查執行個體和應用是否正常,並按需同步資料。

SystemMaintenance.StopAndRepair支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期