すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:クォータのモニタリングとアラート

最終更新日:Sep 29, 2024

CloudMonitorは、クォータのモニタリングとアラート機能を提供します。 クォータモニタリングは、包括的な一連のメトリクスに基づいて、リソースクォータ使用量に関するリアルタイムのインサイトを取得するのに役立ちます。 クォータアラートを使用すると、クォータのアラートルールを設定でき、CPU使用率などのメトリックが指定されたしきい値を超えた場合に通知します。 このトピックでは、CloudMonitorまたはApplication Real-Time Monitoring Service (ARMS) を使用して、メトリックデータの表示、クォータアラートの設定、およびメトリックをサブスクライブして関連データを受信する方法について説明します。

前提条件

リソースクォータが作成されます。 リソースクォータの作成方法については、「概要」をご参照ください。

制限事項

機能

サポートされるリソース

リージョン

クォータ

Lingjun リソース

  • 中国 (ウランチャブ)

  • シンガポール

汎用コンピューティングリソース

  • 中国 (北京)

  • 中国 (上海)

  • 中国 (杭州)

  • 中国 (深セン)

  • 中国 (ウランチャブ)

  • シンガポール

CloudMonitorを使用したリソースクォータのモニタリング

課金

CloudMonitorは、特定の量の無料クォータを提供します。 詳細については、「従量課金」をご参照ください。

測定データの表示

モニタリングダッシュボード

  1. CloudMonitorコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[ダッシュボード] > [クラウドプロダクトモニタリング] を選択します。

  3. [クラウドサービスモニタリングダッシュボード] ページで、ドロップダウンリストから [PAI-Quota] を選択します。 検索ボックスにリソースクォータ名を入力するか、ドロップダウンリストからリソースクォータ名を選択します。 クォータ使用量のグラフがダッシュボードに表示されます。

    ダッシュボードで次の操作を実行できます。

    • ディメンションの切り替え: クォータノードディメンションを使用してメトリックデータをフィルタリングします。image

    • 統計の時間範囲を変更する: image

    • グラフを展開する: グラフの右上隅にあるimage.pngアイコンをクリックして詳細を表示します。image

メトリクス

クォータモニタリングは、CPU、メモリ、ディスク、ネットワーク、およびGPUのパフォーマンスに関するメトリックを提供します。 次の表に、特定の主要なメトリックを示します。 サポートされているすべてのメトリックについては、PAI-Quota TimeSeries metricsページをご覧ください。

メトリック

説明

QUOTA_CPU_REQUEST

指定されたクォータのスケジュールされたCPUコアの数。

QUOTA_CPU_TOTAL

指定されたクォータのCPUコアの総数。

QUOTA_CPU_UTIL

指定されたクォータのCPU使用率。

QUOTA_GPU_ACCELERATOR_DUTTY_UTIL

指定されたクォータのGPUコンピューティングパワー使用率。

QUOTA_GPU_ACCELERATOR_MEMORY_UTIL

指定されたクォータのGPUメモリ使用率。

QUOTA_GPU_ACCELERATOR_REQUEST

指定されたクォータのスケジュールされたGPUの数。

QUOTA_GPU_ACCELERATOR_TOTAL

指定されたクォータのGPUの総数。

QUOTA_GPU_POWER_USAGE

指定されたクォータのGPU消費電力。

QUOTA_MEMORY_UTIL

指定されたクォータのメモリ使用率。

クォータアラートの設定

クォータ使用量を事前に監視し、ビジネス要件に基づいてアラートルールを設定できます。 メトリックがアラートルールで指定されたしきい値に違反すると、アラート通知が送信されます。 次のセクションでは、CloudMonitorコンソールでクォータアラートを設定する方法について説明します。

ステップ1: アラート連絡先の設定

  1. アラート連絡先を作成します。

    1. CloudMonitorコンソールにログインします。

    2. 左側のナビゲーションウィンドウで、アラート > アラート連絡先を選択します。

    3. アラート連絡先タブで、アラート連絡先の作成をクリックします。

    4. [アラート送信先の設定] パネルで、 アラート連絡先の名前、メールアドレス、およびwebhook URLを入力します。 他のパラメーターのデフォルト値を保持します。

      説明

      アラート通知の言語パラメーターがデフォルト値の自動に設定されていることを確認します。 これは、Alibaba Cloudアカウントの作成に使用する言語に基づいて、CloudMonitorがアラート通知の言語を自動的に選択することを示しています。

    5. パラメーター設定を確認し、OKをクリックします。

  2. アラート送信先グループを作成します。

    1. CloudMonitorコンソールにログインします。

    2. 左側のナビゲーションウィンドウで、アラート > アラート連絡先を選択します。

    3. アラート連絡先グループタブをクリックします。

    4. アラート連絡先グループタブで、アラート連絡先グループの作成をクリックします。

    5. アラート連絡先グループの作成パネルで、アラート連絡先グループの名前を入力し、アラート連絡先グループにアラート連絡先を追加します。

    6. 確認をクリックします。

手順2: アラートルールの設定

  1. CloudMonitorコンソールの左側のナビゲーションウィンドウで、[クラウドサービスモニタリング] > [クラウドサービスモニタリング] を選択します。

  2. [クラウドサービスモニタリング] ページで、[PAI-Quota] を検索します。image

  3. [PAI-Quota] ページに移動し、サービスがデプロイされているリージョンを選択し、[アラートルールの作成] をクリックします。

  4. [アラートルールの作成] パネルでパラメーターを設定し、[確認] をクリックします。 下表に、各パラメーターを説明します。

    パラメーター

    説明

    プロダクト

    CloudMonitorを使用してモニタリングするサービス。 この例では、ドロップダウンリストから [PAI-Quota] を選択します。

    リソース範囲

    アラートルールを適用するリソース。 有効な値:

    • すべてのリソース: リソースクォータがアラートルールで指定された条件を満たすと、アラート通知が送信されます。

    • インスタンス: [インスタンスの追加] をクリックし、監視するリソースクォータを追加します。 アラート通知は、選択したリソースクォータがアラートルールで指定された条件を満たす場合にのみ送信されます。

    ルールの説明

    アラートをトリガーする条件。 このパラメーターの設定方法の詳細については、「アラートルールの作成」をご参照ください。

    ミュート用

    アラートがクリアされていないときに別のアラート通知が送信される間隔。

    有効期間

    アラートルールが有効になる期間。 CloudMonitorは指定されたリソースクォータをモニタリングし、指定された有効期間内にのみアラートを生成します。

    アラート連絡先グループ

    アラート通知の送信先の連絡先グループ。 アラート連絡先がある連絡先グループを選択します。

    タグ

    カスタムアラートルールのタグ。 タグは名前と値で構成されます。

  5. [PAI-Quota] ページで、[アラートルールの表示] をクリックして、作成したルールの詳細を表示します。 [アクション] 列の [アラート履歴] をクリックして、アラート履歴を表示します。 アラートルールを変更することもできます。

API操作を呼び出して、アラート履歴の表示、アラートテンプレートの管理、アラートルールの作成、アラート連絡先の追加など、クォータアラートを設定および管理できます。 CloudMonitor APIを呼び出してクォータアラートを設定および管理する方法については、「アラートサービス」をご参照ください。

Subscribe to a metric

CloudMonitorは、メトリクスのサブスクライブやカスタムリソースモニタリングダッシュボードの作成に使用できる包括的な一連のAPI操作を提供します。 詳細については、「機能別操作一覧」をご参照ください。

API 操作

説明

DescribeMetricLast

メトリックの最新のモニタリングデータを照会します。

DescribeMetricList

指定されたクラウドサービスのメトリックのモニタリングデータを照会します。

DescribeMetricData

指定されたクラウドサービスのメトリックのモニタリングデータを照会します。

DescribeMetricMetaList

CloudMonitorでサポートされているメトリクスの詳細を照会します。

DescribeProjectMeta

CloudMonitorで監視対象サービスの情報を照会します。

DescribeMetricTop

指定されたクラウドサービスの指定されたメトリックの最新のモニタリングデータを照会します。 データは指定された順序でソートできます。

この例では、DescribeMetricList操作を使用して、PAIのDeep Learning Containers (DLC) の特定のメトリックのデータを照会する方法を示します。

  1. [PAI-Quota TimeSeries Metrics] ページに移動します。

  2. サブスクライブするメトリックを見つけて、[操作] 列の [メトリックデータの取得] をクリックします。image

  3. OpenAPI Portalで、主要なパラメーターを設定します。 他のパラメーターにはデフォルト値を使用します。 次の表に、主要なパラメーターを示します。 すべてのパラメーターについて詳しくは、「DescribeMetricList」をご参照ください。

    パラメーター

    説明

    名前空間

    クラウドサービスの名前空間。 例: acs_pai_quota。

    MetricName

    監視するメトリックの名前。 例: QUOTA_CPU_REQUEST。

    StartTime

    クエリの時間範囲の開始。 例: 2024-05-15 00:00:00

    EndTime

    クエリの時間範囲の終了。 例: 2024-05-28 00:00:00

    説明

    時間範囲は31日以下でなければなりません。

  4. パラメーターを設定したら、[呼び出しの開始] をクリックして、指定した時間範囲の測定データを表示します。

ARMSを使用したリソースクォータの監視

PAI-QuotaのモニタリングデータをManaged Service for Prometheusと統合して、PAI-Quotaの使用状況をモニタリングできます。

課金

課金情報については、「課金の概要」をご参照ください。

モニタリングデータの統合

以下の手順を実行します。

  1. ARMSコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[統合センター] をクリックします。

  3. [統合センター] ページの左側のナビゲーションパネルで、[AI] をクリックします。 次に、AIセクションのAliyun PAI-Quotaタブをクリックします。image

  4. オプションです。 Aliyun PAI-Quota設定パネルで、モニタリングダッシュボードをプレビューし、収集メトリクスとすべてのアラートルールテンプレートを表示できます。

    プレビュー

    [プレビュー] タブをクリックして、モニタリングダッシュボードをプレビューします。 image

    メトリックの収集

    [メトリックの収集] タブをクリックして、収集メトリックを表示します。 image

    アラートルールテンプレート

    [アラートルールテンプレート] タブをクリックして、アラートルールテンプレートを表示します。 image

  5. [統合の開始] タブをクリックして、モニタリングデータの統合を開始します。 次に、関連するパラメーターを設定し、[OK] をクリックします。 下表に、各パラメーターを説明します。

    パラメーター

    説明

    リージョンの選択

    データを保存するリージョンを選択します。

    名前

    CloudMonitorコンソールの画面上の指示に従って、アクセス名を設定します。

    統合プロセスは、約1〜2分を必要とする。

  6. 左側のナビゲーションパネルで、[統合管理] をクリックして、統合環境に関する情報を表示します。

Grafanaダッシュボードの表示

  1. インスタンスの詳細ページに移動します。 詳細については、「手順2: ダッシュボードの表示」をご参照ください。

  2. [コンポーネント管理] ページで、[アドオンの種類] セクションを見つけ、[ダッシュボード] をクリックして組み込みダッシュボードを表示します。image

  3. ダッシュボード名をクリックして、クォータ情報を表示します。d3bae3f2d8c2bc286812e5969e1b9118

Prometheusアラートの設定

  1. インスタンスの詳細ページに移動します。 詳細については、「手順2: ダッシュボードの表示」をご参照ください。

  2. [コンポーネント管理] ページで、[追加タイプ] セクションの [アラートルール] をクリックして、組み込みのアラートルールを表示します。image

  3. 組み込みのアラートルールはアラートイベントを生成しますが、アラート通知は送信しません。 次のいずれかの方法を使用して、電子メールまたは他のプラットフォームを使用してアラート通知を送信できます。

    • 通知ポリシーを作成し、アラートイベントの一致ルールを指定します。 一致するルールがトリガーされると、指定された通知方法を使用して、アラート通知が連絡先に送信されます。 詳細については、「通知ポリシーの作成と管理」をご参照ください。

    • [操作] 列の [編集] をクリックし、通知方法を設定します。

      imagePrometheusアラートルールの編集ページで、アラート条件、期間、アラートメッセージ、アラート通知を指定できます。 詳細については、「Prometheusインスタンスのアラートルールの作成」をご参照ください。