すべてのプロダクト
Search
ドキュメントセンター

DataWorks:DataStudio (旧バージョン)

最終更新日:Feb 11, 2025

DataWorks の DataStudio サービスでは、自動トリガーされるタスクの開発プロパティとスケジューリングプロパティを定義できます。DataStudio はオペレーションセンターと連携して、MaxCompute、Hologres、E-MapReduce (EMR) などのさまざまな種類のコンピューティングエンジンのタスク向けの視覚化された開発インターフェイスを提供します。視覚化された開発インターフェイスで設定を構成して、インテリジェントなコード開発、ワークフローでのマルチエンジンタスクのオーケストレーション、標準化されたタスクデプロイメントを実行できます。このようにして、オフラインデータウェアハウス、リアルタイムデータウェアハウス、およびアドホック分析システムを構築して、効率的かつ安定したデータ生成を保証できます。このトピックでは、DataStudio で使用される用語、DataStudio によって提供される機能、および DataStudio でのデータ開発前の準備について説明します。

DataStudio ページに移動する

DataWorks コンソールにログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発と O&M] > [データ開発] を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。

モジュールの概要

機能の概要

次の図は、DataStudio によって提供される主な機能を示しています。詳細については、このトピックの「付録: データ開発関連の用語」セクションをご参照ください。

機能

説明

オブジェクトの編成と管理

DataStudio は、DataWorks 内のオブジェクトを編成および管理するためのメカニズムを提供します。

  • オブジェクトの編成: 次の 2 レベルの管理モードが提供されます。[ソリューション] > [ワークフロー]。DataWorks では、ワークフローのディレクトリツリー内、またはワークフローの構成タブでオブジェクトを編成できます。ワークフローのディレクトリツリーに必要なオブジェクトを作成したり、ワークフローの構成タブでコンポーネントをドラッグしてデータ処理ワークフローを構築したりできます。ソリューションを使用してワークフローを管理できます。

  • オブジェクト管理: ノード、テーブル、リソース、および関数を視覚的に作成および管理できます。

詳細については、「ワークフローを作成する」およびこのトピックの「管理モード」セクションをご参照ください。

説明

ワークスペースの DataStudio で作成できるワークフローとオブジェクトの最大数に関する制限:

  • ワークフロー: 最大 10,000 個のワークフローを作成できます。

  • オブジェクト (ノード、ファイル、テーブル、リソース、または関数): DataWorks Enterprise Edition の場合、最大 200,000 個のオブジェクトを作成できます。DataWorks Professional Edition、DataWorks Standard Edition、または DataWorks Basic Edition の場合、最大 100,000 個のオブジェクトを作成できます。

現在のワークスペース内のワークフローとオブジェクトの数が上限に達すると、ワークフローまたはオブジェクトを作成できなくなります。

タスク開発

  • さまざまな機能:

    • 幅広い種類のコンピューティングエンジンのノードを提供して、コンピューティングエンジンの機能を完全にカプセル化します。

    • 汎用ノードを提供します。DataWorks で汎用ノードと特定のコンピューティングエンジンの種類のノードを組み合わせて、複雑なビジネスロジックを処理できます。たとえば、外部システムが DataWorks 内のノードのスケジューリングをトリガーしたり、ファイルが存在するかどうかを確認したり、論理条件に基づいて結果をルーティングしたり、特定のノードのコードをループで実行したり、ノード間で出力を渡したりできます。

  • 簡単な操作:

    • ワークフローの構成タブでデータを視覚的に開発できます。コンポーネントをドラッグして、異なるコンピューティングエンジンの種類のタスクのハイブリッドオーケストレーションを実行できます。

    • インテリジェントな SQL エディターを提供します。SQL エディターは、コードヒント、SQL 演算子を使用したコード構造の表示、権限検証などの機能を提供します。

DataWorks でサポートされているノードの種類については、「DataWorks ノード」をご参照ください。

タスクのスケジューリング

  • トリガー方法: タスクのスケジューリングは、外部システム、イベント、または先祖タスクの出力によってトリガーできます。先祖タスクの出力は、内部リネージュの解析に基づいてタスクのスケジューリングをトリガーします。

  • 依存関係: 同一サイクルとサイクル間の依存関係を構成できます。スケジューリング頻度の異なるさまざまな種類のタスク間の依存関係も構成できます。

  • 実行制御: 先祖タスクの出力に基づいて、タスクを再実行するかどうかを決定し、タスクのスケジューリング時間を管理できます。タスクがスケジュールどおりに自動的に実行される有効期間と、タスクのスケジューリングの種類を指定できます。たとえば、タスクをドライランタスクとして指定したり、タスクをフリーズしたりできます。タスクをドライランタスクとして指定すると、システムはタスクを実行せずにタスクに対して成功応答を返します。タスクの子孫タスクのスケジューリングはブロックされません。タスクをフリーズすると、システムはタスクを実行せず、タスクの子孫タスクのスケジューリングはブロックされます。

  • 冪等性: DataStudio は、カスタムの再実行条件と再実行回数を構成するために使用できる再実行メカニズムを提供します。

タスクのスケジューリングの詳細については、「時間プロパティを構成する」および「スケジューリング依存関係の構成ガイド」をご参照ください。

タスクのデバッグ

タスクまたはワークフローをデバッグできます。詳細については、「デバッグ手順」をご参照ください。

タスクのデバッグ

DataStudio は、標準化されたタスク デプロイメント メカニズムと、プロセス制御を実行するためのさまざまなメソッドを提供します。 プロセス制御のために、以下の操作を含むがこれらに限定されない操作を実行できます。

  • タスクがデプロイされる前に、コードレビューとスモークテストを実行します。これは、本番環境でエラーが発生した場合にプロセスの実行をブロックするのに役立ちます。コードレビューについては、「コードレビュー」をご参照ください。

  • Data Governance Center が提供するガバナンスアイテムと、拡張機能に基づいてカスタマイズされた検証ロジックを組み合わせて、タスクのコミットおよび本番環境へのデプロイに関するプロセス制御をカスタマイズします。

プロセス制御

  • オープン性: DataWorks オープンプラットフォーム は、さまざまな API 操作と多数の組み込み拡張ポイントを提供します。DataWorks オープンプラットフォームで、データ開発に関連するイベントメッセージをサブスクライブできます。

  • 権限管理: DataWorks のサービスモジュールに対する権限とデータアクセス権限を管理できます。詳細については、「ワークスペースレベルのサービスに対する権限を管理する」をご参照ください。

  • 操作レコードの表示: DataWorks は ActionTrail と統合されています。これにより、ActionTrail で Alibaba Cloud アカウントの最近の DataWorks 動作イベントをクエリできます。詳細については、「DataStudio ページで操作レコードを表示する」をご参照ください。

DataStudio ページの概要

DataStudio ページの機能で説明されている手順に従って、DataStudio ページの各モジュールの機能を使用できます。

開発プロセス

DataWorks DataStudio では、リアルタイム同期タスク、バッチ同期タスク、バッチ処理タスク、および手動でトリガーされるタスクなど、さまざまなコンピュートエンジンの種類のタスクを作成できます。データ同期について詳しくは、「Data Integration の概要」をご参照ください。さまざまなコンピュートエンジンの種類のタスクの構成要件は異なります。タスクの種類に基づいてタスクを開発する前に、DataWorks でのさまざまなコンピュートエンジンの種類のタスクの開発に関する注意事項と関連する手順に注意してください。

  • さまざまなコンピュートエンジンの種類のタスクの開発に関する手順: DataWorks にさまざまなデータソースを追加して、DataWorks でタスクを開発できます。さまざまなコンピュートエンジンの種類のタスクの構成要件は異なります。詳細については、以下のトピックをご参照ください。

  • 一般的な開発プロセス: 次の 2 つのワークスペースモードを使用できます: 標準モードと基本モード。ノード開発プロセスは、ワークスペースモードによって異なります。

    標準モードのワークスペースでのタスク開発プロセス标准模式工作空间开发流程

    基本モードのワークスペースでのタスク開発プロセス简单模式工作空间开发流程

    • 基本プロセス: たとえば、標準モードのワークスペースでタスクを開発するとします。開発プロセスには、開発、デバッグ、スケジューリング設定の構成、タスクのコミット、タスクのデプロイ、および O&M などの段階が含まれます。詳細については、「一般的な開発プロセス」をご参照ください。

    • プロセス制御: タスク開発中に、DataStudio が提供する コードレビュースモークテスト などの操作を実行したり、「Data Governance Center」にプリセットされているチェック項目や「Open Platform」の拡張機能に基づいてカスタマイズされた検証ロジックを使用して、タスク開発に関する指定された標準と要件が満たされていることを確認したりできます。

      説明

      プロセス制御操作は、ワークスペースモードによって異なります。実際のプロセス制御操作が優先されます。

管理モード

ワークフローは、コード開発とリソース管理の基本単位です。 ワークフローは、ビジネス要件に基づいてコードを開発できる抽象的なビジネス エンティティです。 異なるワークスペースのワークフローとノードは個別に開発されます。 ワークフローの詳細については、「ワークフローを作成する」をご参照ください。

ワークフローは、ディレクトリツリーまたはパネルに表示できます。 表示モードを使用すると、ビジネスの観点からコードを整理し、リソースの分類とビジネス ロジックをより効率的に表示できます。

  • ディレクトリツリーでは、タスク タイプ別にコードを整理できます。

  • パネルには、ワークフローのビジネス ロジックが表示されます。

开发组织结构

DataStudio を始める

環境の準備

DataWorks のオペレーションセンターでデータモデリングやデータ開発を実行したり、定期的にタスクをスケジュールしたりする場合は、データソースまたはクラスターを DataStudio に関連付ける必要があります。 これにより、データソースまたはクラスター内のデータを読み取り、データ開発操作を実行できます。

  1. 開発およびスケジュールするタスクのタイプに基づいて、特定タイプのデータソースまたはクラスターを追加します。

    データソースまたはクラスターのタイプ

    説明

    MaxCompute

    MaxCompute データソースを DataWorks に初めて追加すると、DataWorks は自動的にデータソースを DataStudio に関連付けます。 このトピックで説明されている手順に従って、データソースを DataStudio に手動で関連付ける必要はありません。 後で追加された MaxCompute データソースの場合は、データソースを DataStudio に手動で関連付ける必要があります。

    Hologres

    これらのタイプのいずれかのデータソースを追加した後、このトピックで説明されている手順に従って、データソースを DataStudio に手動で関連付ける必要があります。

    AnalyticDB for PostgreSQL

    AnalyticDB for MySQL V3.0

    ClickHouse

    EMR

    クラスターを DataWorks に登録すると、DataWorks はクラスターを DataStudio に関連付けます。 このトピックで説明されている手順に従って、クラスターを DataStudio に手動で関連付ける必要はありません。

    Cloudera's Distribution Including Apache Hadoop (CDH) or Cloudera Data Platform (CDP)

  2. DataStudio ページに移動します。

    DataWorks コンソール にログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、[データ開発と O&M] > [データ開発] を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。

  3. 左側のナビゲーションウィンドウで、[計算リソース] をクリックします。

    [計算リソース] モジュールが左側のナビゲーションウィンドウに表示されない場合は、個人設定 タブに移動し、DataStudio モジュールセクションで [計算リソース] を選択して、[計算リソース] モジュールを DataStudio ページの左側のナビゲーションウィンドウに表示できるようにする必要があります。 詳細については、「DataStudio モジュールセクションの設定を構成する」をご参照ください。

  4. データソースまたはクラスターを関連付けます。

    [計算リソース] ページで、[計算リソース名] または [計算リソースタイプ] で目的のデータソースまたはクラスターを検索し、[関連付ける] をクリックします。 データソースまたはクラスターを DataStudio に関連付けると、接続情報に基づいてデータソースまたはクラスターからデータを読み取り、関連するデータ開発操作を実行できます。

    説明

    データソースまたはクラスターの情報が変更されても、現在のページのデータが時間内に更新されない場合は、現在のページを更新してキャッシュデータを更新してください。

    image

    • 次のシナリオでは、データソースまたはクラスターを DataStudio に関連付けられない場合があります。

      • 特定タイプのデータソースまたはクラスターの構成では、DataStudio との関連付けがサポートされていません。 たとえば、AccessKey ペアを使用して追加されたデータソースを DataStudio に関連付けることはできません。 関連付けの制限の詳細については、データソースまたはクラスターを DataStudio に関連付けるときに DataWorks コンソールに表示される説明を参照してください。

      • 開発環境または本番環境の構成が不足しています。

      • MaxCompute データソースは、複数の DataWorks ワークスペースに同時に関連付けることはできません。

      説明

      データソースまたはクラスターを DataStudio に関連付けられない理由は、データソースまたはクラスターのタイプによって異なります。 データソースまたはクラスターを DataStudio に関連付けようとするときに表示される理由に基づいて、問題のトラブルシューティングを行うことができます。

    • DataStudio に関連付けることができるデータソースまたはクラスターのタイプは、MaxCompute、EMR、Hologres、AnalyticDB for MySQL、ClickHouse、CDH、CDP、および AnalyticDB for PostgreSQL のみです。

    • DataStudio に関連付けることができるデータソースまたはクラスターのタイプと数は、DataWorks エディションによって異なります。 詳細については、「DataWorks エディション間の違い」トピックの 機能比較 セクションをご参照ください。

クイックスタートチュートリアル

データ開発を始める を参照して、データ開発の基本操作とデータ開発プロセスを学習できます。

DataStudio でサポートされているノードタイプ

DataWorks の DataStudio サービスでは、さまざまなタイプのノードを作成できます。 DataWorks を有効にして、ノードに対して生成されたインスタンスを定期的にスケジュールできます。 ビジネス要件に基づいてデータ開発を行うために、特定のタイプのノードを選択することもできます。 DataWorks でサポートされているノードタイプの詳細については、「DataWorks ノード」をご参照ください。

付録: データ開発関連の用語

  • タスク開発関連の用語

    用語

    説明

    ソリューション

    ワークフローの集合です。ソリューションとは、特定のビジネス目標専用のワークフローのグループです。1 つのワークフローを複数のソリューションに追加できます。ソリューションを開発し、ワークフローをソリューションに追加すると、他のユーザーは自分のソリューション内のワークフローを参照および変更して共同開発を行うことができます。

    ワークフロー

    抽象的なビジネス エンティティであり、特定のビジネス要件のためのタスク、テーブル、リソース、および関数の集合です。このタイプのワークフローのタスクは、スケジュールに従って実行するようにトリガーされます。

    手動トリガー ワークフロー

    特定のビジネス要件のためのタスク、テーブル、リソース、および関数の集合です。

    このタイプのワークフローのタスクは、手動でトリガーされて実行されます。

    DAG

    directed acyclic graph の略語です。DAG は、ノードとその依存関係を表示するために使用されます。DataStudio では、ワークフロー内のすべてのタスクが同じ DAG に表示されます。これにより、タスク開発と依存関係の構成が容易になります。

    タスク

    DataWorks の基本的な実行単位です。DataWorks は、タスク間の依存関係に基づいてタスクを順番に実行します。

    ノード

    DAG 内のタスクです。DataWorks は、ノード間の依存関係に基づいてノードを順番に実行します。

  • タスク スケジューリング関連の用語

    用語

    説明

    依存関係

    タスクを実行する順序を定義するために使用されます。ノード B がノード A の実行完了後にのみ実行できる場合、ノード A はノード B の先祖ノードであり、ノード B はノード A に依存します。DAG では、依存関係はノード間の矢印で表されます。

    出力名

    現在のノードを他のノードと区別するために使用される識別子です。出力名はグローバルに一意です。1 つのノードに複数の出力名を含めることができます。ノード間のスケジューリングの依存関係は、出力名に基づいて構成されます。

    出力テーブル名

    現在のタスクによって生成されたテーブルの名前を出力テーブル名として使用することをお勧めします。出力テーブル名を適切に構成すると、子孫ノードの依存関係を構成するときに、データが予期される先祖テーブルからのものかどうかを確認するのに役立ちます。自動解析に基づいて生成された出力テーブル名は、手動で変更しないことをお勧めします。出力テーブル名は、識別子としてのみ機能します。出力テーブル名を変更しても、SQL 文を実行することによって実際に生成されるテーブルの名前には影響しません。実際に生成されるテーブルの名前は、SQL ロジックによって決まります。

    説明

    [出力名] はグローバルに一意である必要があります。ただし、[出力テーブル名] にはそのような制限はありません。

    スケジューリング リソース グループ

    タスク スケジューリングに使用されるリソース グループです。リソース グループの詳細については、「概要」をご参照ください。

    スケジューリング パラメーター

    ノードが実行されるようにスケジュールされるときに、ノードに対して構成されます。スケジューリング パラメーターの値は、ノードのスケジューリング時に動的に置き換えられます。コードの繰り返し実行中に、日付や時刻などのランタイム環境に関する情報を取得する場合は、DataWorks のスケジューリング パラメーターの定義に基づいて、コード内の変数に値を動的に割り当てることができます。

    データ タイムスタンプ

    スケジューリング時間(ノードをスケジュールする時間)の前日です。オフライン コンピューティング シナリオでは、データ タイムスタンプはビジネストランザクションが実行された日付を表します。データ タイムスタンプの値は、日単位の精度です。たとえば、現在の日に前日の売上高の統計データを収集する場合、前日はビジネストランザクションが実行された日付であり、データ タイムスタンプを表します。

    スケジューリング時間

    ビジネス データを処理するためにタスクをスケジュールする時間です。スケジューリング時間は秒単位の精度です。スケジューリング時間は、タスクが実際に実行されるスケジュール時間と異なる場合があります。タスクが実行される実際の時間は、複数の要因の影響を受けます。