全部產品
Search
文件中心

Tablestore:資料匯出到OSS概述

更新時間:Jun 30, 2024

Tablestore中的全量資料以及增量資料可以通過DataWorksData Integration同步到Object Storage Service中備份和使用。

實現原理

DataWorksData Integration的離線同步功能將不同資料來源的同步抽象為從來來源資料源讀取資料的Reader外掛程式以及向目標資料來源寫入資料的Writer外掛程式,方便您通過定義來源與去向資料來源並結合DataWorks調度參數使用,將來來源資料源中的全量或增量資料同步到目標資料來源中。如下圖所示。

image.png

同步Table Store資料到OSS時,離線同步任務中會涉及到配置Table Store相關的Reader外掛程式和OSS相關的Writer外掛程式。相關外掛程式說明如下:

  • Table Store相關的Reader外掛程式

    根據資料同步方式不同,要使用的Table Store相關的Reader外掛程式不同。具體說明請參見下表。

    同步方式

    所用外掛程式

    外掛程式說明

    全量匯出

    Tablestore(OTS) Reader

    用於讀取Table Store表中的資料,並可以通過指定抽取資料範圍實現資料增量抽取的需求。更多資訊,請參見Tablestore資料來源

    增量同步處理

    OTSStream Reader

    用於增量匯出Table Store表中的資料。更多資訊,請參見Tablestore Stream資料來源

  • OSS相關的Write外掛程式

    不論使用的同步方式是全量匯出或者增量同步處理,DataWorks均使用OSS Writer外掛程式向OSS中寫入資料。更多資訊,請參見OSS資料來源

同步方式

離線同步任務可以通過配置資料過濾並結合調度參數使用來決定同步全量資料還是增量資料。

同步方式

說明

全量匯出

將Table Store的全量資料一次性匯出到OSS中備份或者使用。

使用此同步方式時,只需執行一次離線同步任務即可,無需為離線同步任務配置調度屬性。

增量同步處理

將Table Store中新增和變化的資料定期同步到OSS中備份或者使用。

使用此同步方式時,需要配置離線同步任務的調度屬性用於周期性同步增量資料。

使用情境

適用於以更低成本備份Tablestore資料或者以檔案形式匯出Tablestore資料到本地的情境。

使用流程

不同同步方式的使用流程存在差異,請根據所用同步方案按照相應流程執行同步操作。具體操作,請參見匯出全量資料到OSS同步增量資料到OSS

全量匯出流程

全量匯出的主要步驟說明請參見下表。

步驟

操作

說明

1

新增來來源資料源

用於指定要同步資料的表所屬執行個體資訊。來來源資料源為Table Store資料來源。

2

新增目標資料來源。

用於指定要同步到的OSS Bucket資訊。目標資料來源為OSS資料來源。

3

建立離線任務節點

用於完成離線資料同步操作的任務。一個同步操作需要建立一個離線任務節點、

4

配置離線同步任務並啟動

DataWorksData Integration提供了嚮導模式和指令碼模式用於配置離線同步任務,請根據實際選擇合適的配置模式。

  • 嚮導模式:通過可視化的填寫和下一步的引導,協助您快速完成資料同步任務的配置工作。嚮導模式的學習成本低,但無法支援部分進階功能。

  • 指令碼模式:通過直接編寫資料同步的JSON指令碼來完成資料同步開發,適合進階使用者,學習成本較高。指令碼模式可以提供更豐富靈活的能力,實現精細化的組態管理。

5

資料移轉結果驗證

完成資料匯出操作後,在OSS控制台查看匯入的資料。

增量同步處理流程

增量同步處理的主要步驟說明請參見下表。

步驟

操作

說明

1

新增來來源資料源

用於指定要同步資料的表所屬執行個體資訊。來來源資料源為Table Store資料來源。

如果已有Table Store資料來源滿足使用需求,請跳過此步驟。

2

新增目標資料來源。

用於指定要同步到的OSS Bucket資訊。目標資料來源為OSS資料來源。

如果已有OSS資料來源滿足使用需求,請跳過此步驟。

3

建立離線任務節點

用於完成離線資料同步操作的任務。一個同步操作需要建立一個離線任務節點、

4

配置離線同步任務並啟動

DataWorksData Integration提供了嚮導模式和指令碼模式用於配置離線同步任務,請根據實際選擇合適的配置模式。

  • 嚮導模式:通過可視化的填寫和下一步的引導,協助您快速完成資料同步任務的配置工作。嚮導模式的學習成本低,但無法支援部分進階功能。

  • 指令碼模式:通過直接編寫資料同步的JSON指令碼來完成資料同步開發,適合進階使用者,學習成本較高。指令碼模式可以提供更豐富靈活的能力,實現精細化的組態管理。

5

配置調度屬性

配置同步任務的執行時間、重跑屬性、調度依賴等,用於周期性執行同步任務。

6

調試代碼並提交任務

測試代碼能運行成功後,提交離線同步任務到服務端,便於後續按照調度屬性定期執行任務。

7

查看任務執行結果

在DataWorks控制台查看任務運行狀態以及在OSS管理主控台查看資料同步結果。

計費說明

  • 資料同步到OSS時,Table Store會收取讀取Table Store資料的費用。Table Store會根據實際計算消耗折算成CU進行計費。同時根據執行個體類型不同,計費時需要區分按量讀CU以及預留讀CU。更多資訊,請參見Table Store計費概述

    說明

    關於執行個體類型和CU的更多資訊,請分別參見執行個體讀寫輸送量

  • 資料同步到OSS後,OSS會根據資料檔案的儲存量和儲存時間長度收取儲存費用。當要下載檔案到本地時,OSS會收取請求費用(Get類請求次數費用)和流量費用(外網流出流量費用)。更多資訊,請參見OSS計費概述