DataWorks データ統合を使用して、Tablestore 内のフルデータと増分データを Object Storage Service に同期できます。これにより、Tablestore データがバックアップされ、OSS で Tablestore データを使用できます。
しくみ
DataWorks データ統合のオフライン同期機能は、異なるデータソースとデスティネーション間の同期を、データソースからデータを読み取るために使用される Reader プラグインと、デスティネーションにデータを書き込むために使用される Writer プラグインに抽象化します。これにより、データソースとデスティネーションを定義し、DataWorks スケジューリングパラメータと共に使用して、データソースからデスティネーションにフルデータまたは増分データを同期できます。
Tablestore データを OSS に同期する場合、オフライン同期タスク用に Tablestore 関連の Reader プラグインと OSS 関連の Writer プラグインを設定する必要があります。以下の項目では、プラグインの使用上の注意点を説明します。
Tablestore 関連の Reader プラグイン
必要な Tablestore 関連の Reader プラグインは、使用するデータ同期モードによって異なります。次の表に、データ同期モードと Tablestore 関連の Reader プラグインのマッピングを示します。
同期モード
Tablestore 関連の Reader プラグイン
プラグインの説明
フルエクスポート
Tablestore Reader
このプラグインは、Tablestore テーブルからデータを読み取るために使用されます。抽出するデータの範囲を指定して、増分抽出を実行できます。詳細については、Tablestore データソース を参照してください。
増分同期
OTSStream Reader
このプラグインは、Tablestore テーブルのデータを増分モードでエクスポートするために使用されます。詳細については、Tablestore Stream データソース を参照してください。
OSS 関連の Writer プラグイン
DataWorks は、フルエクスポートモードまたは増分同期モードのいずれを使用する場合でも、OSS 関連の Writer プラグインを使用して OSS にデータを書き込みます。詳細については、OSS データソース を参照してください。
同期モード
オフライン同期タスクでデータフィルタを設定し、スケジューリングパラメータを使用して、フルデータまたは増分データのどちらを同期するかを決定できます。次の表に、同期モードを示します。
同期モード | 説明 |
フルエクスポート | このモードでは、Tablestore のフルデータが一度に OSS にエクスポートされます。 このモードを使用する場合、オフライン同期タスクを実行する必要があるのは 1 回だけです。オフライン同期タスクのスケジューリングパラメータを設定する必要はありません。 |
増分同期 | このモードでは、Tablestore の新規データと変更されたデータが定期的に OSS に同期されます。 このモードを使用する場合、オフライン同期タスクのスケジューリングパラメータを設定する必要があります。これにより、増分データが定期的に同期されます。 |
シナリオ
低コストで Tablestore データをバックアップする必要がある場合、または Tablestore データをファイルとしてローカルデバイスにエクスポートする場合。
手順
手順は、使用する同期モードによって異なります。同期モードに固有の手順を使用してください。詳細については、Tablestore から OSS へのフルデータのエクスポート および OSS への増分データの同期 を参照してください。
フルエクスポート手順
次の表に、フルエクスポートモードの主な手順を示します。
手順 | 操作 | 説明 |
1 | データソースの追加 | この手順は、データを同期するテーブルのインスタンス情報を指定するために行います。データソースは Tablestore です。 |
2 | デスティネーションの追加 | この手順は、データを同期する OSS バケットの情報を指定するために行います。デスティネーションは OSS です。 |
3 | オフラインタスクノードの作成 | オフライン同期操作には、オフラインタスクノードが必要です。同期操作ごとにオフラインタスクノードを作成する必要があります。 |
4 | オフライン同期タスクの設定と開始 | DataWorks データ統合は、オフライン同期タスクを設定するために、ウィザードモードとスクリプトモードを提供します。ビジネス要件に基づいてモードを選択してください。
|
5 | 移行結果の確認 | データのエクスポート後、OSS コンソールでインポートされたデータを表示できます。 |
増分同期手順
次の表に、増分同期モードの主な手順を示します。
手順 | 操作 | 説明 |
1 | データソースの追加 | この手順は、データを同期するテーブルのインスタンス情報を指定するために行います。データソースは Tablestore です。 既存の Tablestore データソースがビジネス要件を満たしている場合は、この手順をスキップします。 |
2 | デスティネーションの追加 | この手順は、データを同期する OSS バケットの情報を指定するために行います。デスティネーションは OSS です。 既存の OSS データソースがビジネス要件を満たしている場合は、この手順をスキップします。 |
3 | オフラインタスクノードの作成 | オフライン同期操作には、オフラインタスクノードが必要です。同期操作ごとにオフラインタスクノードを作成する必要があります。 |
4 | オフライン同期タスクの設定と開始 | DataWorks データ統合は、オフライン同期タスクを設定するために、ウィザードモードとスクリプトモードを提供します。ビジネス要件に基づいてモードを選択してください。
|
5 | スケジューリングパラメータの設定 | この手順は、同期タスクの実行時間、再実行プロパティ、およびスケジューリングの依存関係を設定して、同期タスクを定期的に実行できるようにするために行います。 |
6 | コードのデバッグとタスクの送信 | デバッグが成功したら、オフライン同期タスクをサーバーに送信して、スケジューリングプロパティに基づいてタスクを定期的に実行できるようにします。 |
7 | タスク実行結果の表示 | DataWorks コンソールでタスクの実行ステータスを表示し、OSS コンソールでデータ同期結果を表示できます。 |
課金ルール
Tablestore から OSS にデータを同期する場合、消費された Capacity Unit (CU) 数に基づいて、Tablestore データの読み取りに対して Tablestore によって課金されます。従量課金制読み取り CU と予約型読み取り CU は別々に課金されます。従量課金制読み取り CU または予約型読み取り CU のどちらが消費されるかは、アクセスするインスタンスのタイプによって異なります。詳細については、課金概要 を参照してください。
説明インスタンスタイプと CU の詳細については、インスタンス と 読み取り/書き込みスループット を参照してください。
データが OSS に同期された後、ストレージの使用量と期間に基づいて、データファイルのストレージに対して OSS によって課金されます。OSS からローカルデバイスにオブジェクトをダウンロードする場合、GET API リクエストの数とインターネット経由のアウトバウンドトラフィックの量に対して OSS によって課金されます。詳細については、OSS 課金概要 を参照してください。