容災系統部署在阿里雲的兩個地區中,當生產網站發生故障(例如海嘯、地震)時,業務系統切換到容災網站。生產網站和容災網站部署在不同的地區,提供容災即服務,RPO低至1分鐘、RTO低至15分鐘的高可靠的業務持久性保障,有效避免了地區性災害導致的系統故障。
準備工作
在實現跨地區容災之前,您需要選擇一個不同於生產環境的地區作為容災目標地區。在該地區上建立雲上Virtual Private Cloud,並建立複製網路交換器和恢複網路交換器。
步驟一:建立容災網站對
準備工作完成後,按如下步驟對來源站點ECS進行跨地區容災保護:
在左側導覽列,選擇 。
單擊切換到連續複製型容災。
在容災中心頁面右上方,選擇+添加。
在建立容災網站對面板,完成以下配置,然後單擊建立。
選擇容災類型為跨地區容災。
配置生產網站資訊。
生產網站用於指定需要容災的伺服器在雲上的位置。
參數
說明
名稱
為生產網站命名。例如杭州主站。不超過60個字元。命名規則如下:
不能以特殊字元及數字開頭。
特殊字元只可包含半形句號(.)、底線(_)和短劃線(-)。
地區
從地區列表中,選擇主站所在的地區。例如華東1(杭州)。
VPC
從VPC列表中,選擇準備工作中為主站建立好的VPC。例如預設VPC。
配置容災網站資訊。
容災網站災備備用的計算和儲存資源都會在選中的專用網路環境中建立。
參數
說明
名稱
為容災網站命名。例如上海從站。不超過60個字元。命名規則如下:
不能以特殊字元及數字開頭。
特殊字元只可包含半形句號(.)、底線(_)和短劃線(-)。
地區
從地區列表中,選擇從站所在的地區。例如華東2(上海)。
VPC
從VPC列表中,選擇從站所屬的VPC。例如預設VPC。
步驟二:添加被保護伺服器
容災網站對建立完成後,按如下步驟添加被保護伺服器:
在容災中心的受保護伺服器頁簽,選中步驟一中已建立的容災網站對。
單擊+添加,勾選要保護的ECS,然後單擊確認。
您可以選擇至少1個ECS進行保護,最多可以支援10個ECS。
伺服器狀態顯示用戶端安裝中,隨後顯示已初始化。如果伺服器狀態未顯示已初始化,選擇
以完成用戶端初始化。
步驟三:啟動複製
啟動容災複製,將伺服器複製到雲上,並維持即時複製。按如下步驟啟動複製:
單擊受保護伺服器頁簽,在要啟動容災複製伺服器右側對應的操作列表,選擇 。
在啟動複製面板,配置如下參數,然後單擊啟動。
參數
說明
復原點策略
從下拉式清單中選擇建立復原點的時間間隔,Cloud Backup每天每隔該時間建立一個復原點,單位為小時。
硬碟類型
支援高效雲端硬碟、ESSD和SSD。
複製網路
從下拉式清單中選擇複製網路。Cloud Backup使用該網路複製容災資料到雲上。
Cloud Backup預設讀取從站VPC網路的可用虛擬交換器。複製網路和恢複網路的交換器可以是同一個,同一個網路做恢複時速度更快。複製網路和恢複網路不在一個可用性區域時,將導致RTO時間變長。建議配置和恢複網路相同的可用性區域。
恢複網路
從下拉式清單中選擇恢複網路。容災恢複時,Cloud Backup使用該網路恢複容災資料,例如容災演練或故障切換時恢複出來的ECS使用該網路建立。
Cloud Backup預設讀取從站VPC網路的可用虛擬交換器。複製網路和恢複網路的交換器可以是同一個,同一個網路做恢複時速度更快。複製網路和恢複網路不在一個可用性區域時,將導致RTO時間變長。建議配置和複製網路相同的可用性區域。
複製中斷後是否自動重啟
是否複製中斷後啟動重啟。勾選表示複製中斷後,啟動重啟複製任務。
此時,容災複製會先後進入啟動複製、全量複製、即時複製中三個階段。
啟動複製:ECS容災服務正在掃描系統資料,評估總體資料量,這一階段通常會持續幾分鐘。
全量複製:ECS容災服務正在把整台伺服器的有效資料轉送到阿里雲,這一階段所用時間取決於伺服器資料量、網路頻寬等因素。控制台進度條將會展示複製進度。
即時複製中:全量複製完成後,阿里雲上已經複製了您的全量資料,然後阿里雲複製服務AReS(Aliyun Replication Service)將會在伺服器上監視所有對磁碟的寫操作,並持續地即時複製到阿里雲。
(可選)容災演練
一旦進入即時複製狀態,您就可以對伺服器進行容災演練操作了。
容災演練將被容災保護的伺服器在雲上拉起並驗證應用正確性,是容災流程整體中極其重要的一環,其核心意義在於:
方便地驗證被容災保護的應用可以在雲上正常啟動。
確保操作人員熟悉容災恢複流程,確保在主站真正發生故障時,操作人員可以順暢地進行容災切換。
按如下步驟進行容災演練:
在受保護伺服器頁簽,單擊要啟動容災演練伺服器右側對應的操作列表下的容災演練。
在容災演練面板,選擇恢複網路、IP地址、是否使用ECS規格、硬碟類型、復原點、Elastic IP Address、切換後執行指令碼。然後單擊啟動。
說明雲備份服務會自動為每個伺服器保留最近24小時的24個復原點。
如果不使用ECS規格,還需要填寫CPU、記憶體資訊。
此時,阿里雲會在後台基於使用者選定的時間點將伺服器啟動。後台容災演練過程中,即時資料複製不受影響。
幾分鐘後,您會看到容災演練完成,單擊容災演練資訊下的連結,驗證資料與應用。
清空演練環境。
驗證完成後,單擊該伺服器右側對應的操作列表下的清空演練環境,此時恢複出來的ECS會被刪除。
說明容災演練恢複出來的ECS驗證完成後,建議儘快清空演練環境,以降低費用支出。
步驟四:故障切換
週期性容災演練保證了您的業務可以隨時在雲上啟動。而當您的主站發生重大故障,需要在雲上馬上重啟核心業務時,則需要進行故障切換操作。
故障切換操作適用於被保護伺服器已經出現嚴重故障的情形,進行該操作會停掉即時複製流程。您需要重新啟動複製,並完成一次全量複製才能對被保護伺服器繼續進行容災保護。
按如下步驟進行故障切換:
在受保護伺服器頁簽,在要啟動故障切換的伺服器右側對應的操作列表下,選擇 。
在故障切換面板,選擇恢複網路、IP地址、是否使用ECS規格、硬碟類型、復原點、Elastic IP Address、切換後執行指令碼。然後單擊啟動。
重要目前時間復原點只能使用一次。
故障切換完成後,單擊故障切換/故障恢複資訊下的連結,檢查資料和應用。
如果檢查後發現目前時間點應用運行正常,選擇
。說明在故障切換或者切換復原點完成,並且已經確認被容災保護的伺服器恢複出的應用已經接管了業務的情況下,完成故障切換操作是為了清理容災複製在雲上佔用的資源,節約資源使用。
如果檢查後發現目前時間點應用狀態不符合要求,例如資料庫一致性問題,或者源端被汙染的資料已經被同步到另一個地區,請在確認故障切換前,選擇
。
說明切換復原點操作與故障切換操作類似,僅需選擇更早的復原點即可。
步驟五:反轉複寫方向
被保護伺服器的應用完成從某個地區(如地區A)容災複製到另一個地區(如地區B)後,還可以實施反轉複寫方向,即從地區B反轉複寫方向到地區A。
按如下步驟進行反轉複寫方向:
在受保護伺服器頁簽,在要啟動反轉複寫方向的伺服器右側對應操作列表下,選擇 ,確認反向註冊被保護伺服器。
在操作列表,選擇 。
在啟動反轉複寫方向面板,勾選是否進行原機恢複,選擇複製網路和恢複網路。然後單擊啟動。
警告跨地區及跨可用性區域容災支援原機恢複。當使用原機恢複時,所使用的ECS主機中的資料會被清除,請謹慎選擇。
待伺服器進入反向即時複製狀態時,在操作列表,選擇 。
在故障恢複面板,填寫CPU、記憶體資訊、選擇恢複網路、IP地址、編輯恢複後執行指令碼。
故障恢複完成後,在操作列表,選擇 ,再次註冊被保護伺服器。