DataWorks の DataStudio サービスでは、自動トリガーされるタスクの開発プロパティとスケジューリングプロパティを定義できます。DataStudio はオペレーションセンターと連携して、MaxCompute、Hologres、E-MapReduce (EMR) などのさまざまな種類のコンピューティングエンジンのタスク向けの視覚化された開発インターフェイスを提供します。視覚化された開発インターフェイスで設定を構成して、インテリジェントなコード開発、ワークフローでのマルチエンジンタスクのオーケストレーション、標準化されたタスクデプロイメントを実行できます。このようにして、オフラインデータウェアハウス、リアルタイムデータウェアハウス、およびアドホック分析システムを構築して、効率的かつ安定したデータ生成を保証できます。このトピックでは、DataStudio で使用される用語、DataStudio によって提供される機能、および DataStudio でのデータ開発前の準備について説明します。
DataStudio ページに移動する
DataWorks コンソールにログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
モジュールの概要
機能の概要
次の図は、DataStudio によって提供される主な機能を示しています。詳細については、このトピックの「付録: データ開発関連の用語」セクションをご参照ください。
機能 | 説明 |
オブジェクトの編成と管理 | DataStudio は、DataWorks 内のオブジェクトを編成および管理するためのメカニズムを提供します。
詳細については、「ワークフローを作成する」およびこのトピックの「管理モード」セクションをご参照ください。 説明 各 ワークスペースの DataStudio で作成できるワークフローとオブジェクトの最大数に関する制限:
現在のワークスペース内のワークフローとオブジェクトの数が上限に達すると、ワークフローまたはオブジェクトを作成できなくなります。 |
タスク開発 |
DataWorks でサポートされているノードの種類については、「DataWorks ノード」をご参照ください。 |
タスクのスケジューリング |
タスクのスケジューリングの詳細については、「時間プロパティを構成する」および「スケジューリング依存関係の構成ガイド」をご参照ください。 |
タスクのデバッグ | タスクまたはワークフローをデバッグできます。詳細については、「デバッグ手順」をご参照ください。 |
タスクのデバッグ | DataStudio は、標準化されたタスク デプロイメント メカニズムと、プロセス制御を実行するためのさまざまなメソッドを提供します。 プロセス制御のために、以下の操作を含むがこれらに限定されない操作を実行できます。 |
プロセス制御 |
|
DataStudio ページの概要
DataStudio ページの機能で説明されている手順に従って、DataStudio ページの各モジュールの機能を使用できます。
開発プロセス
DataWorks DataStudio では、リアルタイム同期タスク、バッチ同期タスク、バッチ処理タスク、および手動でトリガーされるタスクなど、さまざまなコンピュートエンジンの種類のタスクを作成できます。データ同期について詳しくは、「Data Integration の概要」をご参照ください。さまざまなコンピュートエンジンの種類のタスクの構成要件は異なります。タスクの種類に基づいてタスクを開発する前に、DataWorks でのさまざまなコンピュートエンジンの種類のタスクの開発に関する注意事項と関連する手順に注意してください。
さまざまなコンピュートエンジンの種類のタスクの開発に関する手順: DataWorks にさまざまなデータソースを追加して、DataWorks でタスクを開発できます。さまざまなコンピュートエンジンの種類のタスクの構成要件は異なります。詳細については、以下のトピックをご参照ください。
一般的な開発プロセス: 次の 2 つのワークスペースモードを使用できます: 標準モードと基本モード。ノード開発プロセスは、ワークスペースモードによって異なります。
標準モードのワークスペースでのタスク開発プロセス
基本モードのワークスペースでのタスク開発プロセス
基本プロセス: たとえば、標準モードのワークスペースでタスクを開発するとします。開発プロセスには、開発、デバッグ、スケジューリング設定の構成、タスクのコミット、タスクのデプロイ、および O&M などの段階が含まれます。詳細については、「一般的な開発プロセス」をご参照ください。
プロセス制御: タスク開発中に、DataStudio が提供する コードレビュー や スモークテスト などの操作を実行したり、「Data Governance Center」にプリセットされているチェック項目や「Open Platform」の拡張機能に基づいてカスタマイズされた検証ロジックを使用して、タスク開発に関する指定された標準と要件が満たされていることを確認したりできます。
説明プロセス制御操作は、ワークスペースモードによって異なります。実際のプロセス制御操作が優先されます。
管理モード
ワークフローは、コード開発とリソース管理の基本単位です。 ワークフローは、ビジネス要件に基づいてコードを開発できる抽象的なビジネス エンティティです。 異なるワークスペースのワークフローとノードは個別に開発されます。 ワークフローの詳細については、「ワークフローを作成する」をご参照ください。
ワークフローは、ディレクトリツリーまたはパネルに表示できます。 表示モードを使用すると、ビジネスの観点からコードを整理し、リソースの分類とビジネス ロジックをより効率的に表示できます。
ディレクトリツリーでは、タスク タイプ別にコードを整理できます。
パネルには、ワークフローのビジネス ロジックが表示されます。
DataStudio を始める
環境の準備
DataWorks のオペレーションセンターでデータモデリングやデータ開発を実行したり、定期的にタスクをスケジュールしたりする場合は、データソースまたはクラスターを DataStudio に関連付ける必要があります。 これにより、データソースまたはクラスター内のデータを読み取り、データ開発操作を実行できます。
開発およびスケジュールするタスクのタイプに基づいて、特定タイプのデータソースまたはクラスターを追加します。
データソースまたはクラスターのタイプ
説明
MaxCompute データソースを DataWorks に初めて追加すると、DataWorks は自動的にデータソースを DataStudio に関連付けます。 このトピックで説明されている手順に従って、データソースを DataStudio に手動で関連付ける必要はありません。 後で追加された MaxCompute データソースの場合は、データソースを DataStudio に手動で関連付ける必要があります。
これらのタイプのいずれかのデータソースを追加した後、このトピックで説明されている手順に従って、データソースを DataStudio に手動で関連付ける必要があります。
クラスターを DataWorks に登録すると、DataWorks はクラスターを DataStudio に関連付けます。 このトピックで説明されている手順に従って、クラスターを DataStudio に手動で関連付ける必要はありません。
Cloudera's Distribution Including Apache Hadoop (CDH) or Cloudera Data Platform (CDP)
DataStudio ページに移動します。
DataWorks コンソール にログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、 を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
[計算リソース] モジュールが左側のナビゲーションウィンドウに表示されない場合は、個人設定 タブに移動し、DataStudio モジュールセクションで [計算リソース] を選択して、[計算リソース] モジュールを DataStudio ページの左側のナビゲーションウィンドウに表示できるようにする必要があります。 詳細については、「DataStudio モジュールセクションの設定を構成する」をご参照ください。
データソースまたはクラスターを関連付けます。
[計算リソース] ページで、[計算リソース名] または [計算リソースタイプ] で目的のデータソースまたはクラスターを検索し、[関連付ける] をクリックします。 データソースまたはクラスターを DataStudio に関連付けると、接続情報に基づいてデータソースまたはクラスターからデータを読み取り、関連するデータ開発操作を実行できます。
説明データソースまたはクラスターの情報が変更されても、現在のページのデータが時間内に更新されない場合は、現在のページを更新してキャッシュデータを更新してください。
次のシナリオでは、データソースまたはクラスターを DataStudio に関連付けられない場合があります。
特定タイプのデータソースまたはクラスターの構成では、DataStudio との関連付けがサポートされていません。 たとえば、AccessKey ペアを使用して追加されたデータソースを DataStudio に関連付けることはできません。 関連付けの制限の詳細については、データソースまたはクラスターを DataStudio に関連付けるときに DataWorks コンソールに表示される説明を参照してください。
開発環境または本番環境の構成が不足しています。
MaxCompute データソースは、複数の DataWorks ワークスペースに同時に関連付けることはできません。
説明データソースまたはクラスターを DataStudio に関連付けられない理由は、データソースまたはクラスターのタイプによって異なります。 データソースまたはクラスターを DataStudio に関連付けようとするときに表示される理由に基づいて、問題のトラブルシューティングを行うことができます。
DataStudio に関連付けることができるデータソースまたはクラスターのタイプは、MaxCompute、EMR、Hologres、AnalyticDB for MySQL、ClickHouse、CDH、CDP、および AnalyticDB for PostgreSQL のみです。
DataStudio に関連付けることができるデータソースまたはクラスターのタイプと数は、DataWorks エディションによって異なります。 詳細については、「DataWorks エディション間の違い」トピックの 機能比較 セクションをご参照ください。
クイックスタートチュートリアル
データ開発を始める を参照して、データ開発の基本操作とデータ開発プロセスを学習できます。
DataStudio でサポートされているノードタイプ
DataWorks の DataStudio サービスでは、さまざまなタイプのノードを作成できます。 DataWorks を有効にして、ノードに対して生成されたインスタンスを定期的にスケジュールできます。 ビジネス要件に基づいてデータ開発を行うために、特定のタイプのノードを選択することもできます。 DataWorks でサポートされているノードタイプの詳細については、「DataWorks ノード」をご参照ください。
付録: データ開発関連の用語
タスク開発関連の用語
用語
説明
ソリューション
ワークフローの集合です。ソリューションとは、特定のビジネス目標専用のワークフローのグループです。1 つのワークフローを複数のソリューションに追加できます。ソリューションを開発し、ワークフローをソリューションに追加すると、他のユーザーは自分のソリューション内のワークフローを参照および変更して共同開発を行うことができます。
ワークフロー
抽象的なビジネス エンティティであり、特定のビジネス要件のためのタスク、テーブル、リソース、および関数の集合です。このタイプのワークフローのタスクは、スケジュールに従って実行するようにトリガーされます。
手動トリガー ワークフロー
特定のビジネス要件のためのタスク、テーブル、リソース、および関数の集合です。
このタイプのワークフローのタスクは、手動でトリガーされて実行されます。
DAG
directed acyclic graph
の略語です。DAG は、ノードとその依存関係を表示するために使用されます。DataStudio では、ワークフロー内のすべてのタスクが同じ DAG に表示されます。これにより、タスク開発と依存関係の構成が容易になります。タスク
DataWorks の基本的な実行単位です。DataWorks は、タスク間の依存関係に基づいてタスクを順番に実行します。
ノード
DAG 内のタスクです。DataWorks は、ノード間の依存関係に基づいてノードを順番に実行します。
タスク スケジューリング関連の用語
用語
説明
依存関係
タスクを実行する順序を定義するために使用されます。ノード B がノード A の実行完了後にのみ実行できる場合、ノード A はノード B の先祖ノードであり、ノード B はノード A に依存します。DAG では、依存関係はノード間の矢印で表されます。
出力名
現在のノードを他のノードと区別するために使用される識別子です。出力名はグローバルに一意です。1 つのノードに複数の出力名を含めることができます。ノード間のスケジューリングの依存関係は、出力名に基づいて構成されます。
出力テーブル名
現在のタスクによって生成されたテーブルの名前を出力テーブル名として使用することをお勧めします。出力テーブル名を適切に構成すると、子孫ノードの依存関係を構成するときに、データが予期される先祖テーブルからのものかどうかを確認するのに役立ちます。自動解析に基づいて生成された出力テーブル名は、手動で変更しないことをお勧めします。出力テーブル名は、識別子としてのみ機能します。出力テーブル名を変更しても、SQL 文を実行することによって実際に生成されるテーブルの名前には影響しません。実際に生成されるテーブルの名前は、SQL ロジックによって決まります。
説明[出力名] はグローバルに一意である必要があります。ただし、[出力テーブル名] にはそのような制限はありません。
スケジューリング リソース グループ
タスク スケジューリングに使用されるリソース グループです。リソース グループの詳細については、「概要」をご参照ください。
スケジューリング パラメーター
ノードが実行されるようにスケジュールされるときに、ノードに対して構成されます。スケジューリング パラメーターの値は、ノードのスケジューリング時に動的に置き換えられます。コードの繰り返し実行中に、日付や時刻などのランタイム環境に関する情報を取得する場合は、DataWorks のスケジューリング パラメーターの定義に基づいて、コード内の変数に値を動的に割り当てることができます。
データ タイムスタンプ
スケジューリング時間(ノードをスケジュールする時間)の前日です。オフライン コンピューティング シナリオでは、データ タイムスタンプはビジネストランザクションが実行された日付を表します。データ タイムスタンプの値は、日単位の精度です。たとえば、現在の日に前日の売上高の統計データを収集する場合、前日はビジネストランザクションが実行された日付であり、データ タイムスタンプを表します。
スケジューリング時間
ビジネス データを処理するためにタスクをスケジュールする時間です。スケジューリング時間は秒単位の精度です。スケジューリング時間は、タスクが実際に実行されるスケジュール時間と異なる場合があります。タスクが実行される実際の時間は、複数の要因の影響を受けます。