全部產品
Search
文件中心

Cloud Backup:故障演練

更新時間:Dec 27, 2024

故障演練是整體容災流程中極其重要的一環。 本文介紹ECS容災中故障演練的操作流程。

故障演練的意義

故障演練將被容災保護的伺服器在雲上拉起並驗證應用正確性,是容災流程整體中及其重要的一環,它的核心意義在於:

  • 方便地驗證被容災保護的應用可以在容災網站正常拉起。

  • 確保操作人員熟悉容災恢複流程,確保在產生網站真正發生故障時,操作人員可以順暢地進行容災切換。

前提條件

  • 保護群組處於差異複寫中或者已有復原點之後,您就可以進行故障演練。如何建立跨可用性區域和跨地區容災的保護群組,請參見跨可用性區域容災啟動複製跨地區容災啟動複製

  • 對於建立自訂演練環境情境,您需要提前建立演練環境所需的VPC網路、交換器映射和安全性群組映射等。

操作流程

  1. 建立故障演練環境。

    說明

    對於建立自訂演練環境情境,您需要提前建立演練環境所需的VPC網路、交換器映射和安全性群組映射等。並建立演練環境後,進行演練網路設定。

  2. 啟動故障演練。

  3. 驗證應用或業務。

  4. 清空演練環境。

選擇建立演練環境的方式

建立方式

適用情境

優點

缺點

自动创建并启动

適用於業務比較獨立,不需公網或者和其他網路通訊的配置即可驗證業務的情境。

說明

例如提供內部業務的ECS應用,業務不涉及配置Server Load Balancer、網域名稱、安全性群組(開放連接埠)等。

  • 配置簡單

指定保護群組後,系統自動建立演練環境所需資源,包括VPC網路、交換器映射和安全性群組映射。

不可自訂演練後新建立的ECS執行個體名稱的首碼。自訂的ECS執行個體名稱有利於您快速識別故障演練ECS。

创建自定义演练环境

適合業務和其他網路有互動,需要額外的網路方面配置才可驗證的情境。演練環境配置好以後可以一直保留。

說明

例如多台ECS通過Server Load Balancer對外提供服務的情境,您需要為業務配置Server Load Balancer、網域名稱、安全性群組(開放連接埠)等。

  • 可以自訂演練後新建立的ECS執行個體名稱的首碼,有利於您快速識別故障演練ECS。

  • 自行規劃和建立演練環境資源。包括手動建立演練VPC或者選擇容災網站VPC,建立交換器、安全性群組映射等。

  • 配置複雜

您需要單獨指定演練VPC、配置交換器映射、安全性群組映射,可能存在執行個體IP衝突,導致演練失敗。

自動建立並啟動故障演練

  1. 登入雲備份Cloud Backup控制台

  2. 在左側導覽列,選擇容灾 > ECS容灾

  3. 如果不是雲端硬碟非同步複製型容災,請單擊切換到雲端硬碟非同步複製型容災image

  4. 容災網站對頁面,單擊目標容災網站對,選擇故障演練頁簽。

    說明

    您也可以進入對應保護群組頁簽,在操作列選擇故障演練操作。

  5. 單擊自動建立並啟動

  6. 啟動演練對話方塊,從下拉框選擇保護群組,單擊下一步image.png

  7. 預覽保護群組資源,確認完成後,單擊確認image.png

    說明
    • 當容災網站執行個體規格和執行個體作業系統不滿足要求時,您可以根據生產網站ECS執行個體規格、作業系統和介面提示,選擇合適的執行個體規格。您可以通過修改執行個體規格修改作業系統修改容災網站執行個體規格和作業系統。若規格類型系列和作業系統無法滿足您的需求,請提工單聯絡阿里雲支援人員。

    • 啟動容災複製前,您也可以修改自訂資料修改容災端IP

    • IP地址異常,是IP地址已被使用,請移除原演練ECS執行個體或在網路設定中更改交換器映射。

  8. 確認啟動演練對話方塊,單擊確認,啟動演練。image.png

    重要
    • 系統會暫停當前保護群組複製狀態,然後基於最近一次可復原點建立出新的可用盤。通常情況下,暫停會在5分鐘內自動回復。演練磁碟就緒後,系統會在容災網站建立出演練ECS執行個體,等演練組建立成功後即可開始驗證業務。

    • 保護群組演練會自動啟動容災端ECS且不會自動停止生產端ECS。請使用者謹慎評估業務,並結合安全性群組、網路隔離等手段隔離生產流量,以避免業務風險。

    演練保護群組狀態會先後進入初始化演練中演練組建立成功狀態。

    image.png

  9. 演練ECS執行個體啟動成功後,您就可以驗證業務。

    image.png

  10. 清理演練環境。

    1. 刪除故障演練組

      刪除故障演練組會刪除演練過程中建立的ECS、雲端硬碟、彈性網卡、快照、鏡像等資源。

      在目標演練保護群組的操作列,單擊刪除故障演練組,完成確認,即可刪除。

      說明

      您也可以進入對應保護群組頁簽,在操作列刪除指定故障演練組,可以大量刪除故障演練組。

    2. 刪除演練環境

      演練環境地區,單擊刪除,完成確認,即可刪除。

建立自訂演練環境

  1. 登入雲備份Cloud Backup控制台

  2. 在左側導覽列,選擇容灾 > ECS容灾

  3. 如果不是雲端硬碟非同步複製型容災,請單擊切換到雲端硬碟非同步複製型容災image

  4. 容災網站對頁面,單擊目標容災網站對,選擇故障演練

    說明

    您也可以進入對應保護群組頁簽,在操作列選擇故障演練操作。

  5. 單擊建立自訂演練環境

  6. 建立演練環境對話方塊,設定故障演練後新建立ECS執行個體名稱的首碼,從下拉框中選擇演練VPC,然後單擊確認image.png

    說明
    • ECS執行個體首碼為新建立ECS執行個體名稱的首碼。例如您容災演練的ECS執行個體名稱為ecse,ECS執行個體首碼取值為Drill_test_20230925_,則新產生的ECS執行個體名稱為Drill_test_20230925_ecs

    • 您需要提前在容災網站建立演練環境所使用的VPC。

  7. 配置演練環境網路。image.png

    1. 演練環境地區,單擊演練網路設定參數後的詳情

    2. 演練網路設定對話方塊,添加交換器映射和添加安全性群組映射。image.png

  8. 演練環境地區,單擊啟動演練,開始故障演練。image.png

  9. 啟動演練對話方塊,從下拉框選擇保護群組,單擊下一步image.png

  10. 預覽保護群組資源,確認完成後,單擊確認image.png

    說明
    • 當容災網站執行個體規格和執行個體作業系統不滿足要求時,您可以根據生產網站ECS執行個體規格、作業系統和介面提示,選擇合適的執行個體規格。您可以通過修改執行個體規格修改作業系統修改容災網站執行個體規格和作業系統。若規格類型系列和作業系統無法滿足您的需求,請提工單聯絡阿里雲支援人員。

    • 啟動容災複製前,您也可以修改自訂資料修改容災端IP

    • IP地址異常,是IP地址已被使用,請移除原演練ECS執行個體或在網路設定中更改交換器映射。

  11. 確認啟動演練對話方塊,單擊確認,啟動演練。image.png

    重要
    • 系統會暫停當前保護群組複製狀態,然後基於最近一次可復原點建立出新的可用盤。通常情況下,暫停會在5分鐘內自動回復。演練磁碟就緒後,系統會在容災網站建立出演練ECS執行個體,等演練組建立成功後即可開始驗證業務。

    • 保護群組演練會自動啟動容災端ECS且不會自動停止生產端ECS。請使用者謹慎評估業務,並結合安全性群組、網路隔離等手段隔離生產流量,避免業務風險。

    演練保護群組狀態會先後進入初始化演練中演練組建立成功狀態。

    image.png

  12. 演練ECS執行個體啟動成功後,您就可以驗證業務。image.png

  13. 清理演練環境。

    1. 刪除故障演練組

      刪除故障演練組會刪除演練過程中建立的ECS、雲端硬碟、彈性網卡、快照、鏡像等資源。

      在目標演練保護群組的操作列,單擊刪除故障演練組,完成確認,即可刪除。

      說明

      您也可以進入對應保護群組頁簽,在操作列刪除指定故障演練組,可以大量刪除故障演練組。

    2. 刪除演練環境

      演練環境地區,單擊刪除,完成確認,即可刪除。