由於本地碟不提供資料高可用能力,為提升本地碟的使用體驗,阿里雲提供了豐富的本地碟營運能力,方便您及時瞭解本地碟執行個體是否發生異常並及時採取行動。本文介紹常見的營運情境以及相關係統事件。
常見營運情境及相關係統事件
本地碟執行個體常見的營運情境及相關係統事件如下圖所示。
您可以通過修改執行個體維護屬性自訂執行個體自動回復的方式,例如執行個體維護屬性為自動重新部署,則在自動回復執行個體時預設會進入重新部署執行個體相關的情境。更多資訊,請參見修改執行個體維護屬性。
ECS Bare Metal Instance執行個體還可以安裝外掛程式xdragon_hardware_detect_plugin,定期檢測ECS Bare Metal Instance執行個體上的本地碟的健康狀態。具體操作,請參見安裝監控外掛程式。
情境①
SystemMaintenance.Reboot對應的營運流程如下:
SystemMaintenance.Reboot支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期。
情境②
SystemMaintenance.Redeploy對應的營運流程如下:
您收到計劃重新部署本地碟執行個體的通知。
您完成準備工作,包括修改/etc/fstab設定檔、備份資料等。
更多準備工作的資訊,請參見重新部署本地碟執行個體的前提條件章節。
您按需選擇一種回應程式式。
在使用者操作視窗期內自行重新部署本地碟執行個體。具體操作,請參見重新部署本地碟執行個體。
等待系統自動重新部署本地碟執行個體。
說明重新部署本地碟執行個體後,執行個體會遷移到新的物理機上並重新初始化本地碟,本地碟上的資料會被清空。
您檢查執行個體和應用是否正常,並按需同步資料。
SystemMaintenance.Redeploy支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期。
情境③
SystemFailure.Reboot對應的營運流程:
系統開始自動重啟執行個體。
您收到重啟執行個體的通知。
執行個體自動重啟中,您無需操作,等待完成即可。
您檢查執行個體和應用是否正常。
SystemFailure.Reboot支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期。
情境④
SystemFailure.Redeploy對應的營運流程:
您收到計劃重新部署本地碟執行個體的通知。
您完成準備工作,包括修改/etc/fstab設定檔、備份資料等。
更多準備工作的資訊,請參見重新部署本地碟執行個體的前提條件章節。
您按需選擇一種回應程式式。
在使用者操作視窗期內自行重新部署本地碟執行個體。具體操作,請參見重新部署本地碟執行個體。
等待系統自動重新部署本地碟執行個體。
說明重新部署本地碟執行個體後,執行個體會遷移到新的物理機上並重新初始化本地碟,本地碟上的資料會被清空。
您檢查執行個體和應用是否正常,並按需同步資料。
SystemFailure.Redeploy支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期。
情境⑤
針對情境⑤,您可以將執行個體重新部署到其他宿主機或者僅更換壞盤。更換壞盤時,請注意以下事項:
並非所有本地碟執行個體的磁碟都支援磁碟隔離,只有系統事件的操作中包含磁碟隔離時,您才能隔離受損磁碟。
磁碟隔離和磁碟維修為兩個獨立的操作,磁碟維修的前提是先進行磁碟隔離,但磁碟隔離後並不一定能維修,即並非所有執行個體都支援本地碟的維修。只有當阿里雲發送恢複磁碟的通知時,您才能發起維修。
重新部署執行個體可以快速恢複本地碟可用性,但會丟失所有本地碟的資料。具體操作,請參見重新部署本地碟執行個體。
更換壞盤可以保留除壞盤外其他本地碟的資料,對應的營運流程如下:
您收到磁碟故障以及計劃隔離壞盤的通知。
您完成準備工作,包括修改/etc/fstab設定檔、備份資料等。
如果系統事件中包括隔離壞盤事件或對應操作,您響應通知,授權隔離壞盤。
如果系統事件中包括Reboot事件或對應操作,您需要重啟執行個體。
阿里雲在宿主機上移除壞盤,並插入新盤,然後發送恢複磁碟的通知。
如果系統事件中包括恢複磁碟事件或對應操作,您響應通知,授權恢複磁碟。
如果系統事件中包括Reboot事件或對應操作,您需要重啟執行個體。
說明更換壞盤需要您和阿里雲配合完成,具體操作,請參見隔離損壞的本地碟和隔離損壞的本地碟(CLI)。
更換壞盤相關係統事件支援的事件狀態和對應的變化示意圖如下。
情境⑥
針對情境⑥,您可以將執行個體重新部署到其他宿主機或者原地維修。原地維修時,請注意以下事項:
原地維修並不能保證100%資料無損也無法保證100%維修成功,建議您在授權維修前,對關鍵業務資料進行備份。
並非所有本地碟執行個體的磁碟都支援停機維修。
維修期間,該本地碟執行個體無法啟動,但該執行個體還會根據執行個體的計費方式正常計費。
原地維修的周期為14個工作日,在維修期間您可以通過重新部署或釋放維修中的執行個體,終止維修流程。
重新部署執行個體可以快速恢複本地碟可用性,但會丟失所有本地碟的資料。具體操作,請參見重新部署本地碟執行個體。
授權維修對應的營運流程如下:
您收到本地碟執行個體原地維修事件的通知。
您按需選擇一種回應程式式。
在使用者操作視窗期內自行停止執行個體並授權維修。
等待系統自動執行停機維修操作。
阿里雲對宿主機上的硬體進行維修,維修完成後,發送維修完成事件。
您檢查執行個體和應用是否正常,並按需同步資料。
SystemMaintenance.StopAndRepair支援的事件狀態,請參見ECS系統事件匯總。典型的事件狀態變化示意圖,請參見系統事件的狀態和視窗期。