修複磁碟 - Elastic Compute Service

當ECS執行個體的本地磁碟因硬體故障、資料異常等原因導致無法正常讀寫時，阿里雲會向您發送本地碟受損事件，您可以通過控制台或者OpenAPI等方式對損壞的本地碟進行隔離或修複等操作。

重要

隔離/修複磁碟會導致原受損本地碟資料丟失且不可恢複，建議您提前做好資料備份。

在磁碟隔離/修複期間，您可隨時選擇重新部署本地碟執行個體以快速恢複完整磁碟使用，但該操作將導致所有磁碟資料丟失。

操作流程

修改設定檔：對於Linux系統執行個體，需要登入執行個體內部修改作業系統內的/etc/fstab設定檔，卸載（即umount）損壞的本地碟裝置，避免更換磁碟操作導致讀寫錯誤磁碟的風險。
隔離已損壞的磁碟：對損壞的本地碟進行隔離，隔離後，執行個體可以繼續正常使用。
更換磁碟：阿里雲對損壞的磁碟進行更換。
恢複磁碟：登入ECS執行個體修改作業系統內的/etc/fstab設定檔，掛載（即mount）新的本地碟裝置。

說明

目前僅巨量資料型執行個體規格類型系列d1、d2、d3系列和本地SSD型執行個體規格類型系列i4支援線上隔離換盤，本地SSD型執行個體規格類型系列i3、i2支援隔離本地碟，不支援更換本地碟。此外，是否需要隔離或恢複本地碟，受到本地碟損壞程度的影響，實際請以頁面顯示流程為準。

並非所有的執行個體都需要修改設定檔，如果您的執行個體作業系統不屬於Linux系統請跳過此步驟，如果您的執行個體作業系統屬於Linux系統，在隔離損壞本地碟之前，需要在作業系統內部修改/etc/fstab檔案並卸載損壞的本地碟：

修改設定檔

若您在ECS執行個體/etc/fstab中配置了本地碟的開機自動掛載，請在設定檔中為所有本地碟添加nofail和barrier參數，確保當本地碟掛載失敗時不影響ECS執行個體的啟動。

修改前：

UUID=cf4572d0-****-*** /path/to/mountpoint fstype defaults 0 0

修改後：

UUID=cf4572d0-****-*** /path/to/mountpoint fstype defaults,nofail,barrier=0 0 0

查詢系統事件。
調用DescribeInstanceHistoryEvents查詢指定地區下問詢中（Inquiring）狀態的系統事件，並記錄返回的事件ID（EventId）和事件名稱（Name）。
授權並執行隔離已損壞的磁碟。
調用AcceptInquiredSystemEvent授權阿里雲對損壞的磁碟進行隔離操作。
- 事件名稱為SystemMaintenance.IsolateErrorDisk時：
  - 返回RequestId，無需重啟執行個體，等待阿里雲進行換盤操作。
  - 返回了code:SwitchToOffline.OnlineIsolateFail，需要重啟執行個體。
- 事件名稱為SystemMaintenance.RebootAndIsolateErrorDisk時：調用AcceptInquiredSystemEvent後，需要重啟執行個體。

說明

重啟執行個體後，被隔離的受損本地碟暫時變為1 MiB的Dummy硬碟。您需要在應用程式層持續隔離受損本地碟的讀寫操作和/etc/fstab檔案中的nofail和barrier設定。

您無需進行操作，請等待阿里雲更換損壞的本地碟，更換操作預計在五個工作日內完成，您可以在本地碟事件頁面中查看處理進度。

查詢系統事件。
調用DescribeInstanceHistoryEvents查詢系統事件。阿里雲完成磁碟更換後會發布SystemMaintenance.ReInitErrorDisk或SystemMaintenance.RebootAndReInitErrorDisk事件，
授權恢複磁碟。
調用AcceptInquiredSystemEvent授權執行恢複磁碟操作。
- 事件名稱為SystemMaintenance.ReinitErrorDisk時：
  - 只返回RequestId，無需重啟執行個體。
  - 返回code=SwitchToOffline.OnlineReInitFail，需要重啟執行個體。
- 事件名稱為SystemMaintenance.RebootAndReinitErrorDisk時：調用AcceptInquiredSystemEvent後，需要重啟執行個體。

磁碟修複後，請您檢查ECS執行個體和本地碟狀態。此時被更換的本地碟為新盤，需要初始化後才可使用。具體操作，請參見初始化資料盤（Windows）或初始化資料盤（Linux）。