DataWorks - MaxCompute - Alibaba Cloud ドキュメントセンター

DataWorks は、MaxCompute などのコンピュートエンジンをベースにした、統一されたエンドツーエンドのビッグデータ開発およびガバナンスプラットフォームです。このトピックでは、DataWorks で MaxCompute を使用する方法について説明します。

背景情報

DataWorks では、コンピュートエンジンを DataWorks ワークスペースに関連付けることができます。関連付け後、コンピューティングタスクを作成し、定期的にスケジュールできます。次のいずれかの方法を使用して、DataWorks を MaxCompute に接続できます。

DataAnalysis の [SQL クエリ] 機能を使用する:
この機能を使用して、MaxCompute SQL 文の編集、データのクエリ、ワークブックを使用したデータの分析、オンラインでのデータの共有とダウンロードなどの操作を実行できます。詳細については、「SQL クエリと分析」をご参照ください。
DataStudio で MaxCompute タスクノードを使用する:
DataWorks は、さまざまなタイプのコンピュートエンジンタスクをさまざまなタイプのノードにカプセル化して、データ開発タスクを定義します。リソース、関数、および関連するロジック処理ノードを使用して、より複雑なタスクを開発できます。MaxCompute タスクノードには、ODPS SQL ノード、ODPS Spark ノード、PyODPS 2 ノード、PyODPS 3 ノード、ODPS Script ノード、ODPS MR ノードが含まれます。

シナリオ

DataAnalysis の使用シナリオ

DataAnalysis の [SQL クエリ] 機能は、次のシナリオで使用できます。

DataAnalysis の [SQL クエリ] 機能を使用してデータをクエリし、分析モードで Web Excel を使用してクエリ結果を分析できます。データ転送の頻度を減らし、データセキュリティを確保するために、クエリ結果をローカルマシンにダウンロードして分析することもできます。

MaxCompute タスクノードの使用シナリオ

DataWorks コンソールの Data Studio を使用して、MaxCompute ジョブに関連する自動トリガーノードを開発し、ノードの時間プロパティやスケジューリング依存関係などの設定を構成できます。その後、ノードを DataWorks オペレーションセンターにコミットして、定期的なスケジューリングを行うことができます。

手順

DataWorks ワークスペースを作成する。

MaxCompute 計算リソースをワークスペースに関連付けるか、MaxCompute データソースを作成します。

ワークスペースの作成時に Data Studio のパブリックプレビューへの参加を有効にするかどうかに基づいて、後続の操作を実行できます。

[ワークスペースリスト] ページに移動し、ターゲットワークスペースを見つけて、[アクション] > [クイックアクセス] をクリックして、新しいバージョンの DataStudio のパブリックプレビューに参加したかどうかを判断できます。

DataStudio の新しいバージョンのパブリックプレビューに参加しなかった

DataStudio の新しいバージョンのパブリックプレビューに参加した

[アクション] > [クイックアクセス] をクリックし、[DataStudio] を選択して DataStudio ページに移動します。

次の図に示すように、旧バージョンの DataStudio ページが表示されます。

DataStudio (旧バージョン) の詳細については、「DataStudio (旧バージョン)」をご参照ください。

[アクション] > [クイックアクセス] をクリックし、[Data Studio パブリックプレビュー] を選択して DataStudio ページに移動します。

次の図に示すように、新バージョンの DataStudio ページが表示されます。

Data Studio の新バージョンの詳細については、「DataStudio (新バージョン)」をご参照ください。

パブリックプレビューに参加した場合は、MaxCompute 計算リソースをワークスペースに関連付けます。詳細については、「計算リソースの関連付け」をご参照ください。
パブリックプレビューに参加しなかった場合は、MaxCompute データソースを作成し、そのデータソースを DataStudio (旧バージョン) にバインドします。詳細については、「データソースの追加またはクラスターの登録 (Data Studio のパブリックプレビューへの参加が有効になっていない)」をご参照ください。
説明
MaxCompute データソースが作成されても DataStudio (旧バージョン) にバインドされていない場合、データ同期操作のみを実行できます。データ開発、タスクスケジューリング、データ分析などの操作は MaxCompute に基づいて実行できません。

DataWorks で MaxCompute を使用します。
- DataAnalysis を使用します。
  次のいずれかの方法で、DataAnalysis の [SQL クエリ] ページに移動できます。
  - MaxCompute コンソールの左側のナビゲーションウィンドウで、[データ分析] > [SQL クエリ] をクリックします。[SQL クエリ] ページが表示されます。
  - DataAnalysis のホームページの [ショートカット] セクションで、[SQL クエリ] をクリックします。[SQL クエリ] ページが表示されます。
  - DataAnalysis ページの左側のナビゲーションウィンドウで、[SQL クエリ] をクリックします。[SQL クエリ] ページが表示されます。
  SQL クエリの作成やクエリ文の実行などの操作を実行する方法の詳細については、「SQL クエリと分析」をご参照ください。
- MaxCompute タスクノードを使用します。
  MaxCompute タスクノードの作成方法の詳細については、「概要」をご参照ください。