全部產品
Search
文件中心

Data Online Migration:使用ossimport遷移資料

更新時間:Oct 24, 2024

ossimport支援將任意地區的本機存放區資料、第三方儲存資料、Object Storage Service資料移轉至任意地區的OSS中。本文介紹如何使用ossimport將資料從第三方儲存遷移到OSS。

背景資訊

某使用者的資料存放區於騰訊雲COS廣州(華南)地區,資料大小約500TB。現希望將這些資料,通過ossimport工具,於一周內遷移至OSS華東1(杭州)地區。在遷移的同時,需保證自身業務的正常進行。

ossimport有單機模式和分布式模式兩種部署方式:

  • 對於小於30TB的小規模資料移轉,單機模式即可完成。

  • 對於大規模的資料移轉,請使用分布式模式。

此需求需要使用ossimport分布式配置進行資料移轉。

說明

您也可以使用線上遷移服務進行資料的遷移,遷移過程更加簡單,詳情請參見線上遷移服務

準備工作

  • 開通OSS,並建立華東1(杭州)地區的儲存空間(Bucket)

  • 建立RAM使用者,並授予訪問OSS的許可權

    在RAM控制台建立RAM使用者,並授權該RAM使用者訪問OSS的許可權,然後儲存AccessKey ID和AccessKey Secret。詳情請參見準備工作

  • (可選)購買ECS

    購買與OSS相同地區的ECS執行個體。有關ECS執行個體規格的更多資訊,請參見通用型(g系列)。如果遷移後ECS執行個體需釋放,建議按需購買ECS。

    說明

    如果分布式部署所需的電腦數量較少時,您可以直接在本地部署;如果所需電腦數量較多時,建議在ECS執行個體上部署。本樣本以ECS執行個體進行遷移任務。

    ECS所需數量的計算公式為:X/Y/(Z/100)台。其中X為需要遷移的資料量、Y為要求遷移完成的時間(天)、Z為單台ECS遷移速度Z Mbps(每天遷移約Z/100 TB資料)。假設單台ECS遷移速度達到200Mbps(即每天約遷移2TB資料),則上述樣本中需購買ECS 36台(即500/7/2)。

  • 配置ossimport

    結合本樣本中的大規模遷移需求,您需要在ECS上搭建ossimport分布式模式。有關分布式部署的配置定義資訊,如conf/job.cfgconf/sys.properties、並發控制等配置,請參見說明及配置。有關分布式部署的相關操作,如ossimport下載、配置過程的常見錯誤及排除等,請參見分布式部署

遷移方案

使用分布式模式將第三方儲存遷移至OSS的過程如下:

說明

在ECS上搭建ossimport分布式環境後,ossimport從騰訊雲COS廣州(華南)地區下載資料到ECS華東1(杭州),建議使用外網。使用ossimport從ECS華東1(杭州)將資料上傳到OSS華東1(杭州),建議使用內網。

遷移過程涉及到的費用包含:源和目的儲存空間訪問費用、源儲存空間的流出流量費用、ECS執行個體費用、資料存放區費用、時間成本。如果資料超過TB層級,儲存成本和遷移時間成正比。相對流量、儲存費用,ECS費用較小,增加ECS數量,會減少遷移時間。

遷移實施

  1. 全量遷移第三方儲存T1前的歷史資料。

    詳細步驟請參考分布式部署的運行

    重要

    T1為Unix時間戳記,即自1970年01月01日UTC零點以來的秒數,通過命令date +%s擷取。

  2. 配置鏡像回源。

    資料移轉過程中,來源站點還在不斷產生新的資料。為了不中斷業務,做到業務無縫切換,還需要配置鏡像回源功能。當使用者請求的檔案在OSS中沒有找到時,OSS會自動到來源站點抓取對應檔案儲存到OSS,並將內容直接返回給使用者。更多資訊,請參見OSS鏡像回源

  3. 修改設定檔job.cfg的配置項importSince=T1,重新發起遷移任務,進行T1~T2的增量資料移轉。

  4. 將業務系統讀寫切換至OSS,此時業務系統記錄的時間為T2。

    說明
    • 步驟4完成後,您業務系統的所有的讀寫都在OSS上。第三方儲存只是一份歷史資料,您可以根據需要決定保留或刪除。

    • ossimport只負責資料的遷移和校正,不會刪除任何資料。

參考文檔

有關ossimport的相關說明,請參見以下文檔:

分布式部署(已下線)

ossimport概述(已下線)

常見問題(已下線)