DataWorks の [データ統合] 機能を使用して、他のデータソースから MaxCompute にデータをインポートできます。データはオフラインまたはリアルタイムモードでインポートできます。特定の種類のローカルファイルをインポートすることもできます。このトピックでは、DataWorks を使用して MaxCompute にデータをインポートするための主な手順と重要な情報について説明します。
前提条件
同期するデータを格納するために、MaxCompute に MaxCompute プロジェクトとテーブルを作成します。
データを MaxCompute に同期するには、まずデータを格納するテーブルを作成する必要があります。
MaxCompute にインポートするデータを準備します。
シナリオ 1: ローカルファイルを MaxCompute にインポートする
同期機能
[ローカルファイル] または [Alibaba Cloud Object Storage Service (OSS)] から MaxCompute にファイルをインポートできます。サポートされているフォーマットは
CSV、XLS、XLSX、JSONです。詳細は次のとおりです。[ローカルファイル]:
CSVファイルの最大アップロードサイズは 5 GB、その他のファイルタイプは 100 MB です。[Alibaba Cloud Object Storage Service (OSS)] からデータをアップロードするには、ソース OSS バケットが MaxCompute プロジェクトと同じリージョンにある必要があります。
手順
データ開発ページに移動します。
DataWorks コンソールにログインし、ターゲットリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。ドロップダウンリストからワークスペースを選択し、[データ開発へ進む] をクリックします。
左上隅の
アイコンをクリックします。 を選択して、アップロードとダウンロードページに移動します。左側のナビゲーションウィンドウで、
アイコンをクリックして [データアップロード] ページを開きます。[データのアップロード] をクリックし、画面の指示に従います。
一般的な手順
詳細については、「データのアップロード」をご参照ください。
説明[DataStudio パブリックプレビュー] にない古いワークスペースの場合、ローカル CSV ファイルまたはカスタムテキストファイルを MaxCompute テーブルにアップロードすることもできます。詳細については、「データのアップロード」をご参照ください。
シナリオ 2: 他のデータソースから MaxCompute にデータをインポートする
同期機能
DataWorks の [データ統合] を使用すると、RDS データベースなどの他のデータソースから MaxCompute にデータを同期できます。特定の同期メソッドと機能はシナリオによって異なります。
DataWorks は、[Reader] および [Writer] プラグインを使用して、オフライン同期のためにデータソースから読み取りおよび書き込みを行います。
DataWorks のリアルタイム同期を使用すると、さまざまなソースおよびターゲットデータソースを組み合わせて、単一テーブルまたはデータベース全体のリアルタイム増分同期を実行できます。
DataWorks は、データベース全体のオフライン同期や、完全および増分リアルタイム同期など、さまざまなデータソースとシナリオに対応する同期ソリューションも提供します。
MaxCompute のデータ同期機能を次の表に示します。
オフライン同期
リアルタイム同期
同期ソリューション
単一テーブル読み取り
単一テーブル書き込み
単一テーブル増分読み取り
単一テーブル増分書き込み
データベース全体の増分読み取り
データベース全体の増分書き込み
データベース全体のオフライン読み取り
データベース全体のオフライン書き込み
単一テーブル/データベース全体の完全および増分リアルタイム読み取り
単一テーブル/データベース全体の完全および増分リアルタイム書き込み


-

-

-

-
説明オフライン同期シナリオでは、各オフライン同期ノードは 1 つ以上のテーブルから単一の MaxCompute テーブルにデータをインポートできます。
DataWorks データ統合の MaxCompute のデータ同期機能の詳細については、「MaxCompute データソース」をご参照ください。
手順と一般的な手順
DataStudio での操作
MaxCompute コンソールにログインします。左側のナビゲーションウィンドウで、 を選択して [DataStudio (データ開発)] ページを開きます。DataStudio では、オフラインまたはリアルタイム同期ノードを作成して、他のデータソースから MaxCompute へのデータ同期タスクを設定できます。
以前のバージョン

新しいバージョン

オフライン同期ノードの場合: ターゲットを MaxCompute に設定し、ソースを別のデータソースに設定します。
リアルタイム同期ノードの場合: 出力を MaxCompute に設定し、入力を別のデータソースに設定します。
詳細については、「コードレス UI でオフライン同期タスクを設定する」、「コードエディタでオフライン同期タスクを設定する」、および「DataStudio でリアルタイム同期タスクを設定する」をご参照ください。
データ統合での操作
DataWorks コンソールにログインし、[ワークスペース] ページに移動します。ワークスペースの [アクション] 列で、[クイックアクセス] > [データ統合] をクリックします。[データ統合] ページで、他のデータソースから MaxCompute にデータを同期するデータ同期タスクを作成します。

詳細については、「データ統合で同期タスクを設定する」をご参照ください。
課金
DataWorks データ統合を使用してデータ同期を行う場合、データ統合リソースグループとスケジューリングリソースグループを使用する必要があります。要件に応じて、共有または専用リソースグループを使用できます。インターネットを使用する場合、データ転送コストが適用されることがあります。発生する可能性のあるコストの詳細については、次のトピックをご参照ください。
データ統合リソースグループの課金の詳細については、「データ統合の専用リソースグループの課金: サブスクリプション」および「データ統合の共有リソースグループの課金 (テスト): 従量課金」をご参照ください。
データ転送コストの詳細については、「インターネットトラフィックの課金」をご参照ください。
スケジューリングリソースグループの課金の詳細については、「スケジューリングの専用リソースグループの課金: サブスクリプション」および「スケジューリングの共有リソースグループの課金」をご参照ください。