O&M ダッシュボードページの統計情報の表示 - DataWorks - Alibaba Cloud ドキュメントセンター

オペレーションセンターの O&M ダッシュボードページには、O&M 安定性評価の結果、主要な O&M メトリック、スケジューリングリソースの使用状況、自動トリガーされたタスクのステータス情報など、O&M に関する全体的な情報が表示されます。このページには、データ統合における同期タスクに関する情報も表示されます。これにより、ワークスペース内のタスクに関する全体的な情報をすばやく把握し、例外をできるだけ早く特定して処理し、O&M 効率を向上させることができます。

使用方法に関する注意事項

O&M ダッシュボードページでは、ワークスペースに関するO&M に関する全体的な情報と、ワークスペースのデータ統合における同期タスクに関するO&M 情報を、次の観点から表示できます。

指定されたワークスペース: 指定されたワークスペースに関する O&M 情報（ワークスペースに関する O&M に関する全体的な情報と、ワークスペースのデータ統合における同期タスクに関する O&M 情報を含む）を表示できます。
すべてのワークスペース: 現在のアカウント内のすべてのワークスペースに関する O&M に関する全体的な情報を表示できます。この観点からは、データ統合における同期タスクに関する O&M 情報を表示することはできません。

制限事項

標準モードのワークスペースでは、開発環境でオペレーションセンターの O&M ダッシュボードモジュールを使用することはできません。標準モードのワークスペースでは、オペレーションセンターの上部ナビゲーションバーで本番環境と開発環境を切り替えることができます。
[ワークベンチ概要] タブには、自動トリガーされたタスクと自動トリガーされたインスタンスに関する O&M 情報の統計のみが表示されます。

O&M ダッシュボードページに移動する

DataWorks コンソールにログオンします。上部ナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションペインで、[データ開発とガバナンス] > [オペレーションセンター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[オペレーションセンターに移動] をクリックします。

[ワークベンチ概要] タブの統計情報を表示する

[ワークベンチ概要] タブには、ワークスペースの O&M 情報がさまざまなディメンションで表示されます。これには、O&M の全体的な安定性、O&M の問題、自動トリガーされたタスクと自動トリガーされたインスタンスの実行の詳細、リソースグループのリソースの使用状況、さまざまな状態のインスタンスのランキング、エラーが発生したインスタンスのランキングが含まれます。

[O&M 安定性評価] セクションの情報を表示する

[O&M 安定性評価] セクションでは、ワークスペース内のタスクの全体的な実行の詳細に基づいて、ワークスペースの O&M 安定性が評価されます。 O&M 安定性の健全性ステータスは、優良、良好、中程度、不良のいずれかになります。高リスクまたは低リスクの項目が表示されている場合、ワークスペースの健全性ステータスは不良です。リスクの高い項目を処理し、ワークスペースのパフォーマンスをできるだけ早く最適化する必要があります。上部ナビゲーションバーで [すべてのプロジェクト] を選択すると、すべてのワークスペースに関する次の情報（安定性評価の結果、自動トリガーされたインスタンスの数、自動トリガーされたインスタンスの完了率）を表示できます。整体运维状态评估

[注目] セクションの情報を表示する

[注目] セクションには、インテリジェントベースラインと自動トリガーされたタスクの例外統計に基づいて、ワークスペースと個々の観点からの O&M 例外が表示されます。ワークスペースの全体的な情報を表示したり、自分が所有者であるタスクに関する情報のみを表示したりして、例外をできるだけ早く特定して処理し、ビジネスに影響が出ないようにすることができます。异常问题次の表に、一般的な例外の種類を示します。

減速イベント

例外の種類	説明	参照
ベースラインの超過時間	当日、超過時間状態になっているベースラインインスタンスの数をカウントします。ベースラインのコミットされた完了時刻に達したときにベースライン内のタスクがまだ実行されている場合、タスクに対して生成されたインスタンスは超過時間状態になります。	詳細については、「ベースラインインスタンスの管理」をご参照ください。
ベースラインのアラート	当日、アラート状態になっているベースラインインスタンスの数をカウントします。ベースライン内のタスク間の依存関係が複雑なシナリオでは、アラートマージンしきい値を指定して、重要なデータが期待どおりに生成されるようにすることができます。アラートマージンしきい値を超えると、タスクが期待どおりに完了しない場合があり、例外が発生する可能性があります。	詳細については、「ベースラインの適切なコミットポイントと適切なアラートマージンしきい値の構成」をご参照ください。
エラー関連イベント	当日生成されたエラー関連イベントの数をカウントします。ベースライン内のタスクが失敗すると、エラー関連イベントが生成されます。この場合、タスクの子孫タスクの実行がブロックされる可能性があります。タスクがその子孫タスクの実行に影響を与えないように、できるだけ早くエラーを処理する必要があります。	詳細については、「イベントの管理」をご参照ください。
当日生成された減速イベントの数をカウントします。ベースライン内のタスクの実行時間が過去の平均実行時間よりも大幅に長い場合、減速イベントが生成されます。		詳細については、「イベントの管理」をご参照ください。
孤立ノード	当日の孤立タスクの数をカウントします。自動トリガーされたタスクに祖先タスクがない場合、自動トリガーされたタスクは孤立タスクになります。この場合、タスクは自動的にスケジュールされて実行されることはありません。	詳細については、「シナリオ: 孤立タスク」をご参照ください。
フリーズされたノード	当日フリーズされた自動トリガーされたタスクの数をカウントします。自動トリガーされたタスクがフリーズされると、タスクに対して生成されたインスタンスもフリーズされます。フリーズされたインスタンスは自動的にスケジュールされず、フリーズされたインスタンスの子孫インスタンスは実行がブロックされます。	詳細については、「タスクのフリーズとフリーズ解除」をご参照ください。
期限切れのノード	スケジューリングの有効期限が切れた自動トリガーされたタスクの数をカウントします。システムは、自動トリガーされたタスクのインスタンスを生成し、タスクのスケジューリングの有効期限内にインスタンスを実行します。スケジューリングの有効期限が切れると、システムはタスクの自動トリガーされたインスタンスを生成またはスケジュールしません。
変更されたノード	当日構成が変更された自動トリガーされたタスクの数をカウントします。変更には、コードの変更、スケジューリング構成の変更、タスクステータスの変更、タスク所有権の変更が含まれます。 DataStudio ページで構成が変更され、構成変更後に本番環境にデプロイされたタスクと、本番環境で構成が変更されたタスクの統計が収集されます。説明 [注目] セクションの右上隅にある [マイ] を選択すると、自分が所有者である変更されたタスクの数のみがカウントされます。

自動トリガーされたタスクと自動トリガーされたインスタンスに関する O&M 情報を表示する

次の表に、自動トリガーされたタスクと自動トリガーされたインスタンスに関する O&M 情報を表示できるセクションを示します。

セクション	説明	図
ステータス別のインスタンスの分布	このセクションには、特定のデータタイムスタンプに基づいて、ステータス別に分類された自動トリガーされたインスタンスの分布の統計が表示されます。現在のワークスペース内の自動トリガーされたインスタンスの分布、または自分が所有者である自動トリガーされたインスタンスの分布を表示できます。このセクションの統計は、ページを読み込むと更新されます。ドーナツチャートのセクターをクリックすると、特定の状態の自動トリガーされたインスタンスの数と割合を表示できます。ビジネスに影響を与える可能性のある、次の状態の自動トリガーされたインスタンスに注意してください。 [失敗]: この状態の自動トリガーされたインスタンスは実行に失敗します。その結果、その子孫インスタンスの実行がブロックされる可能性があります。 [フリーズ]: フリーズされた自動トリガーされたインスタンスは自動的にスケジュールされず、その子孫インスタンスの実行はブロックされます。 [低速実行]: 自動トリガーされたインスタンスの実行時間が、過去 10 日間の履歴自動トリガーされたインスタンスの平均実行時間よりも少なくとも 15 分長い場合、自動トリガーされたインスタンスは低速実行インスタンスと見なされます。履歴自動トリガーされたインスタンスの数が 4 未満で、自動トリガーされたインスタンスの実行時間が 30 分を超える場合、自動トリガーされたインスタンスは低速実行インスタンスと見なされます。説明通常のタスクの統計のみが収集されます。ドライランタスクとフリーズされたタスクの統計は収集されません。
インスタンスの完了ステータス	このセクションには、当日の `00:00 and 23:00` の間に自動トリガーされたインスタンスの完了状況が表示されます。当日および前日に正常に実行された、または実行されなかった自動トリガーされたインスタンスの数を確認できます。また、正常に実行された、または実行されなかった自動トリガーされたインスタンスの履歴平均数も確認できます。折れ線グラフには、当日に正常に実行された自動トリガーされたインスタンスの数、前日に正常に実行された自動トリガーされたインスタンスの数、および正常に実行された自動トリガーされたインスタンスの履歴平均数が表示されます。 3 つの線の偏差が大きい場合は、特定の期間に例外が発生しています。詳細なチェックと分析を実行する必要があります。タスクタイプを選択して、特定の自動トリガーされたインスタンスの完了状況を表示できます。説明 [履歴平均] メトリックは、過去 10 日間に正常に実行された自動トリガーされたインスタンスの完了ステータスを示しています。
ノードとインスタンスのトレンド	このセクションには、特定の期間内における本番環境での自動トリガーされたタスクと自動トリガーされたインスタンスの数の傾向が表示されます。右上隅で、過去 12 か月以内の期間を指定できます。説明時刻はデータタイムスタンプに基づいて選択されます。当日の自動トリガーされたタスクまたは自動トリガーされたインスタンスの完了ステータスを表示する場合は、時刻を前日に設定する必要があります。
自動トリガーノードの分布	このセクションには、タスクの種類、優先度、所有者、スケジューリングサイクル別にカウントされた自動トリガーされたタスクの数と割合が表示されます。このセクションの統計は、ページを読み込むと更新されます。ドーナツチャートの凡例項目の数は制限されています。凡例項目の数が上限を超えると、超過した凡例項目は 1 つにマージされます。説明オペレーションセンターページの上部ナビゲーションバーで [すべてのプロジェクト] を選択すると、このセクションでワークスペースごとの自動トリガーされたタスクの分布を表示できます。

[スケジュールのためのリソースグループでのリソース使用量] セクションの情報を確認する

このセクションには、スケジューリング用のリソースグループのリソース使用率と、特定の期間にわたるリソースグループで実行されているインスタンス数の傾向が表示されます。「リソース使用率」の行は、指定されたリソースグループで実行されているインスタンスによって使用されているリソースの割合を示します。リソースグループのリソース使用率が 80% を超える場合は、リソース不足がタスクの実行に影響を与えないように、リソースグループをスケールアウトすることをお勧めします。

説明

このセクションには、最大 7 日間の統計が表示されます。
「リソース使用率」と「インスタンス」のメトリックは、リソースグループに適用されます。たとえば、複数のワークスペースが使用するスケジューリング用の排他的リソースグループを共有している場合、このセクションには、すべてワークスペースのリソースグループのリソース使用率と、リソースグループで実行されているインスタンス数の傾向が表示されます。

调度资源组使用情况

セクションの情報を表示する

实例运行及出错排行

前日のインスタンスランキング
このセクションでは、前日の実行時間、リソース待機時間、および低速実行時間に基づいて、自動トリガーされたインスタンスをランク付けします。上位 30 件の自動トリガーインスタンスのみが表示されます。ランキングに基づいて時間のかかるインスタンスを特定し、タスクに対して生成されたインスタンスの ID をクリックして、インスタンスの詳細ページに移動できます。また、[インテリジェント診断] ページに移動して、インスタンスに関する詳細情報を表示することもできます。
説明
低速実行: 前日のインスタンスの実行時間と過去のインスタンスの平均実行時間の差分が収集されます。インスタンスは、差分の降順で並べ替えられます。
最近 1 か月でエラー率が最も高い自動トリガーノードインスタンスのランキング
このセクションでは、最近 1 か月以内にエラーが発生したタスクをランク付けし、上位 30 件のタスクを表示します。最近 1 か月でエラー率の高いタスクを特定し、タスクの実行の詳細を表示し、エラーの原因を特定できます。

データ統合タブのタスクの統計情報を表示する

[データ統合] タブでは、前日または当日の同期タスクとリソースグループのリソース使用量に関する情報を表示できます。

データ統合のリソースグループのリソース使用量を表示する

「データ統合のリソースグループの状態」セクションには、現在のワークスペース内のすべてのデータ統合タスクのリソース使用量の詳細が表示されます。詳細には、リソースグループで実行されているタスクの数、リソースの使用量、有効期限が含まれます。リソースグループのリソース使用量と、リソースグループで実行されているタスクの数に基づいて、リソースグループのスケーリングなどの操作を実行するかどうかを判断できます。独享数据集成资源组使用情况

説明

データ統合専用の排他リソースグループで実行できる操作の詳細については、「データ統合専用の排他リソースグループ」をご参照ください。
サーバーレスリソースグループで実行できる操作の詳細については、「サーバーレスリソースグループの使用」ディレクトリのトピックをご参照ください。
[O&M ダッシュボード] ページの [データ統合] タブは、データ統合専用の排他リソースグループの O&M 統計情報のみを収集します。

ステータス別の同期タスクの分布を表示する

「実行状態の分布」セクションには、現在のワークスペース内のステータス別の同期タスクの分布がドーナツグラフで表示されます。セクターをクリックすると、特定の状態のタスクの詳細ページに移動できます。詳細ページでは、タスクの詳細を表示し、タスクで発生した例外を処理できます。[異常] 状態と [実行失敗] 状態のタスクに注意する必要があります。これらの状態のタスクは、子孫タスクの実行をブロックします。运行状态分布

バッチ同期タスクの統計情報を表示する

次の表に、バッチ同期タスクの統計情報を表示できるセクションを示します。

セクション	説明	図
データ同期の進捗状況	このセクションには、指定された期間内にバッチ同期に含まれるデータに関する情報が表示されます。メトリックには、合計データ量、合計パブリックネットワークトラフィック、合計レコード数が含まれます。
同期データ量の統計	このセクションには、指定された期間内にさまざまなデータソースから読み取られた、または書き込まれたデータの曲線が表示されます。このセクションでは、大量のデータを同期するために実行される特定の種類のコンピューティングエンジンのタスクを表示できます。タスクに過剰なスケジューリングリソースを割り当てることができます。
最新のトップ 10 タスク	このセクションには、実行に失敗した最新の 10 [インスタンス] と、正常に実行された最新の 10 [インスタンス] が表示されます。統計情報は、最新のインスタンスステータスの概要を示します。インスタンスの失敗の原因をすばやく特定し、エラーメッセージに基づいてエラーを修正できます。
同期タスクの実行の詳細	このセクションでは、フィルター条件を指定してタスクを検索できます。フィルター条件には、[送信時間]、[タスクステータス]、[ノード名] が含まれます。タスクの ID をクリックすると、タスクの詳細を表示できます。

リアルタイム同期タスクの統計情報を表示する

次の表に、リアルタイム同期タスクの統計情報を表示できるセクションを示します。

セクション	説明	図
概要	このセクションには、現在のワークスペース内のすべてのリアルタイム同期タスクの合計データ転送速度と合計記録速度が表示されます。
レイテンシが最も高い上位 10 タスク	このセクションには、レイテンシが最も高い上位 10 タスクが表示されます。このセクションでは、レイテンシの高いタスクをすばやく特定し、できるだけ早くタスクのパフォーマンスを最適化できます。
アラート情報	このセクションには、最新のアラートに関する情報が表示されます。このセクションでは、例外をすばやく特定し、できるだけ早く例外を処理できます。
フェイルオーバー情報	このセクションには、指定された期間内のフェイルオーバーに関する情報が表示されます。このセクションでは、フェイルオーバーの概要がわかります。詳細については、「リアルタイム同期タスクの管理」をご参照ください。