ossimport支援將任意地區的本機存放區資料、第三方儲存資料、Object Storage Service資料移轉至任意地區的OSS中。本文介紹如何使用ossimport將資料從第三方儲存遷移到OSS。
背景資訊
某使用者的資料存放區於騰訊雲COS廣州(華南)地區,資料大小約500TB。現希望將這些資料,通過ossimport工具,於一周內遷移至OSS華東1(杭州)地區。在遷移的同時,需保證自身業務的正常進行。
ossimport有單機模式和分布式模式兩種部署方式:
對於小於30TB的小規模資料移轉,單機模式即可完成。
對於大規模的資料移轉,請使用分布式模式。
此需求需要使用ossimport分布式配置進行資料移轉。
您也可以使用線上遷移服務進行資料的遷移,遷移過程更加簡單,詳情請參見線上遷移服務。
準備工作
開通OSS,並建立華東1(杭州)地區的儲存空間(Bucket)
建立RAM使用者,並授予訪問OSS的許可權
在RAM控制台建立RAM使用者,並授權該RAM使用者訪問OSS的許可權,然後儲存AccessKey ID和AccessKey Secret。詳情請參見準備工作。
(可選)購買ECS
購買與OSS相同地區的ECS執行個體。有關ECS執行個體規格的更多資訊,請參見通用型(g系列)。如果遷移後ECS執行個體需釋放,建議按需購買ECS。
說明如果分布式部署所需的電腦數量較少時,您可以直接在本地部署;如果所需電腦數量較多時,建議在ECS執行個體上部署。本樣本以ECS執行個體進行遷移任務。
ECS所需數量的計算公式為:X/Y/(Z/100)台。其中X為需要遷移的資料量、Y為要求遷移完成的時間(天)、Z為單台ECS遷移速度Z Mbps(每天遷移約Z/100 TB資料)。假設單台ECS遷移速度達到200Mbps(即每天約遷移2TB資料),則上述樣本中需購買ECS 36台(即500/7/2)。
配置ossimport
結合本樣本中的大規模遷移需求,您需要在ECS上搭建ossimport分布式模式。有關分布式部署的配置定義資訊,如
conf/job.cfg
、conf/sys.properties
、並發控制等配置,請參見說明及配置。有關分布式部署的相關操作,如ossimport下載、配置過程的常見錯誤及排除等,請參見分布式部署。
遷移方案
使用分布式模式將第三方儲存遷移至OSS的過程如下:
在ECS上搭建ossimport分布式環境後,ossimport從騰訊雲COS廣州(華南)地區下載資料到ECS華東1(杭州),建議使用外網。使用ossimport從ECS華東1(杭州)將資料上傳到OSS華東1(杭州),建議使用內網。
遷移過程涉及到的費用包含:源和目的儲存空間訪問費用、源儲存空間的流出流量費用、ECS執行個體費用、資料存放區費用、時間成本。如果資料超過TB層級,儲存成本和遷移時間成正比。相對流量、儲存費用,ECS費用較小,增加ECS數量,會減少遷移時間。
遷移實施
全量遷移第三方儲存T1前的歷史資料。
詳細步驟請參考分布式部署的運行。
重要T1為Unix時間戳記,即自1970年01月01日UTC零點以來的秒數,通過命令date +%s擷取。
配置鏡像回源。
資料移轉過程中,來源站點還在不斷產生新的資料。為了不中斷業務,做到業務無縫切換,還需要配置鏡像回源功能。當使用者請求的檔案在OSS中沒有找到時,OSS會自動到來源站點抓取對應檔案儲存到OSS,並將內容直接返回給使用者。更多資訊,請參見OSS鏡像回源。
修改設定檔job.cfg的配置項importSince=T1,重新發起遷移任務,進行T1~T2的增量資料移轉。
將業務系統讀寫切換至OSS,此時業務系統記錄的時間為T2。
說明步驟4完成後,您業務系統的所有的讀寫都在OSS上。第三方儲存只是一份歷史資料,您可以根據需要決定保留或刪除。
ossimport只負責資料的遷移和校正,不會刪除任何資料。
參考文檔
有關ossimport的相關說明,請參見以下文檔: