すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:クォータのモニタリングとアラート

最終更新日:Dec 03, 2024

CloudMonitorは、クォータのモニタリングとアラート機能を提供します。 クォータモニタリングは、包括的な一連のメトリクスに基づいて、リソースクォータ使用量に関するリアルタイムのインサイトを取得するのに役立ちます。 クォータアラートを使用すると、クォータのアラートルールを設定でき、CPU使用率などのメトリックが指定されたしきい値を超えた場合に通知します。 このトピックでは、CloudMonitorまたはApplication Real-Time Monitoring Service (ARMS) を使用して、メトリックデータの表示、クォータアラートの設定、およびメトリックをサブスクライブして関連データを受信する方法について説明します。

前提条件

リソースクォータが作成されます。 リソースクォータの作成方法については、「概要」をご参照ください。

制限事項

機能

サポートされるリソース

リージョン

クォータ

Lingjun リソース

  • 中国 (ウランチャブ)

  • シンガポール

汎用コンピューティングリソース

  • 中国 (北京)

  • 中国 (上海)

  • 中国 (杭州)

  • 中国 (深セン)

  • 中国 (ウランチャブ)

  • シンガポール

メトリクス

クォータモニタリングは、CPU、メモリ、ディスク、ネットワーク、およびGPUのパフォーマンスに関するメトリックを提供します。 次の表に、特定の主要なメトリックを示します。 サポートされているすべてのメトリックについては、PAI-Quota TimeSeries metricsページをご覧ください。

メトリクス

説明

QUOTA_CPU_REQUEST

指定されたクォータのスケジュールされたCPUコアの数。

QUOTA_CPU_TOTAL

指定されたクォータのCPUコアの総数。

QUOTA_CPU_UTIL

指定されたクォータのCPU使用率。

QUOTA_GPU_ACCELERATOR_DUTTY_UTIL

指定されたクォータのGPUコンピューティングパワー使用率。

QUOTA_GPU_ACCELERATOR_MEMORY_UTIL

指定されたクォータのGPUメモリ使用率。

QUOTA_GPU_ACCELERATOR_REQUEST

指定されたクォータのスケジュールされたGPUの数。

QUOTA_GPU_ACCELERATOR_TOTAL

指定されたクォータのGPUの総数。

QUOTA_GPU_POWER_USAGE

指定されたクォータのGPU消費電力。

QUOTA_MEMORY_UTIL

指定されたクォータのメモリ使用率。

CloudMonitorの使用

CloudMonitor は、Alibaba Cloud のリソースとインターネットアプリケーションをモニタリングするサービスです。 CloudMonitor は、すぐに使用できる、エンタープライズクラスかつワンストップ型のモニタリングソリューションです。 CloudMonitorコンソールにログインして、PAI-Quotaに関するメティックデータを表示し、アラートを設定できます。 CloudMonitorは、メトリクスのサブスクライブやカスタムモニタリングダッシュボードの作成に使用できるAPI操作も提供します。 詳細については、「CloudMonitorとは」をご参照ください。

課金

CloudMonitorは、特定の量の無料クォータを提供します。 詳細については、「従量課金」をご参照ください。

測定データの表示

  1. CloudMonitorコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[ダッシュボード] > [クラウドプロダクトモニタリング] を選択します。

  3. [クラウドサービスモニタリングダッシュボード] ページで、ドロップダウンリストから [PAI-Quota] を選択します。 検索ボックスにリソースクォータ名を入力するか、ドロップダウンリストからリソースクォータ名を選択します。 クォータ使用量のグラフがダッシュボードに表示されます。

    ダッシュボードで次の操作を実行できます。

    • ディメンションの切り替え: クォータノードディメンションを使用してメトリックデータをフィルタリングします。image

    • 統計の時間範囲を変更する: image

    • グラフを展開する: グラフの右上隅にあるimage.pngアイコンをクリックして詳細を表示します。image

クォータアラートの設定

クォータ使用量を事前に監視し、ビジネス要件に基づいてアラートルールを設定できます。 メトリックがアラートルールで指定されたしきい値に違反すると、アラート通知が送信されます。 次のセクションでは、CloudMonitorコンソールでクォータアラートを設定する方法について説明します。

ステップ1: アラート連絡先の設定

  1. CloudMonitorコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、アラート > アラート連絡先を選択します。

  3. [アラート連絡先] タブで、[アラート連絡先の作成] をクリックします。

    1. [アラート連絡先の設定] パネルで、アラート連絡先の名前、メールアドレス、およびwebhook URLを入力します。

    2. [OK] をクリックします。

  4. アラート連絡先グループタブで、アラート連絡先グループの作成をクリックします。

    1. アラート連絡先グループの作成パネルで、アラート連絡先グループの名前を入力し、アラート連絡先グループにアラート連絡先を追加します。

    2. 確認をクリックします。

手順2: アラートルールの設定

  1. CloudMonitorコンソールの左側のナビゲーションウィンドウで、[クラウドサービスモニタリング] > [クラウドサービスモニタリング] を選択します。

  2. [クラウドサービスモニタリング] ページで、[PAI-Quota] を検索します。image

  3. [PAI-Quota] ページに移動し、サービスがデプロイされているリージョンを選択し、[アラートルールの作成] をクリックします。

  4. [アラートルールの作成] パネルでパラメーターを設定し、[確認] をクリックします。 下表に、各パラメーターを説明します。

    パラメーター

    説明

    プロダクト

    CloudMonitorを使用してモニタリングするサービス。 この例では、ドロップダウンリストから [PAI-Quota] を選択します。

    リソース範囲

    アラートルールを適用するリソース。 有効な値:

    • すべてのリソース: リソースクォータがアラートルールで指定された条件を満たすと、アラート通知が送信されます。

    • インスタンス: [インスタンスの追加] をクリックし、監視するリソースクォータを追加します。 アラート通知は、選択したリソースクォータがアラートルールで指定された条件を満たす場合にのみ送信されます。

    ルールの説明

    アラートをトリガーする条件。 このパラメーターの設定方法の詳細については、「アラートルールの作成」をご参照ください。

    ミュート用

    アラートがクリアされていないときに別のアラート通知が送信される間隔。

    有効期間

    アラートルールが有効になる期間。 CloudMonitorは指定されたリソースクォータをモニタリングし、指定された有効期間内にのみアラートを生成します。

    アラート連絡先グループ

    アラート通知の送信先の連絡先グループ。 アラート連絡先がある連絡先グループを選択します。

    タグ

    カスタムアラートルールのタグ。 タグは名前と値で構成されます。

  5. [PAI-Quota] ページで、[アラートルールの表示] をクリックして、作成したルールの詳細を表示します。 [アクション] 列の [アラート履歴] をクリックして、アラート履歴を表示します。 アラートルールを変更することもできます。

API操作を呼び出して、アラート履歴の表示、アラートテンプレートの管理、アラートルールの作成、アラート連絡先の追加など、クォータアラートを設定および管理できます。 CloudMonitor APIを呼び出してクォータアラートを設定および管理する方法については、「アラートサービス」をご参照ください。

Subscribe to a metric

CloudMonitorは、メトリクスのサブスクライブやカスタムリソースモニタリングダッシュボードの作成に使用できる包括的な一連のAPI操作を提供します。 詳細については、「機能別操作一覧」をご参照ください。

API 操作

説明

DescribeMetricLast

メトリックの最新のモニタリングデータを照会します。

DescribeMetricList

クラウドサービスのメトリックのモニタリングデータを照会します。

DescribeMetricData

クラウドサービスのメトリックのモニタリングデータを照会します。

DescribeMetricMetaList

CloudMonitorでサポートされているメトリクスの詳細を照会します。

DescribeProjectMeta

CloudMonitorのモニタリング対象サービスに関する情報を照会します。

DescribeMetricTop

クラウドサービスのメトリックの最新のモニタリングデータを照会します。 データは指定された順序でソートできます。

この例では、DescribeMetricList操作を使用して、PAIのDeep Learning Containers (DLC) の特定のメトリックのデータを照会する方法を示します。

  1. [PAI-Quota TimeSeries Metrics] ページに移動します。

  2. サブスクライブするメトリックを見つけて、[操作] 列の [メトリックデータの取得] をクリックします。image

  3. OpenAPI Portalで、主要なパラメーターを設定します。 他のパラメーターにはデフォルト値を使用します。 次の表に、主要なパラメーターを示します。 すべてのパラメーターについて詳しくは、「DescribeMetricList」をご参照ください。

    パラメーター

    説明

    Namespace

    クラウドサービスの名前空間。 例: acs_pai_quota。

    MetricName

    監視するメトリックの名前。 例: QUOTA_CPU_REQUEST。

    StartTime

    クエリの時間範囲の開始。 例: 2024-05-15 00:00:00

    EndTime

    クエリの時間範囲の終了。 例: 2024-05-28 00:00:00

    説明

    時間範囲は31日以下でなければなりません。

  4. パラメーターを設定したら、[呼び出しの開始] をクリックして、指定した時間範囲の測定データを表示します。

ARMSの使用

アプリケーションリアルタイムモニタリングサービス (ARMS) は、クラウドネイティブの可観測性プラットフォームです。 ARMSの機能に基づいて、PAI-Quota用のカスタムGrafanaダッシュボードを作成したり、柔軟なPrometheusアラートを設定したりできます。 詳細については、「ARMSとは何ですか?」をご参照ください。

課金

課金情報については、「課金の概要」をご参照ください。

モニタリングデータの統合

以下の手順を実行します。

  1. ARMSコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[統合センター] をクリックします。

  3. [統合センター] ページの左側のナビゲーションパネルで、[AI] をクリックします。 次に、AIセクションのAliyun PAI-Quotaタブをクリックします。image

  4. 必要に応じて、 Aliyun PAI-Quota設定パネルで、モニタリングダッシュボードをプレビューし、収集メトリクスとすべてのアラートルールテンプレートを表示できます。

    プレビュー

    [プレビュー] タブをクリックして、モニタリングダッシュボードをプレビューします。 image

    メトリックの収集

    [メトリックの収集] タブをクリックして、収集メトリックを表示します。 image

    アラートルールテンプレート

    [アラートルールテンプレート] タブをクリックして、アラートルールテンプレートを表示します。 image

  5. [統合の開始] タブをクリックして、モニタリングデータの統合を開始します。 次に、関連するパラメーターを設定し、[OK] をクリックします。 下表に、各パラメーターを説明します。

    パラメーター

    説明

    リージョンの選択

    データを保存するリージョンを選択します。

    名前

    CloudMonitorコンソールの画面上の指示に従って、アクセス名を設定します。

    統合プロセスは、約1〜2分を必要とします。

  6. 左側のナビゲーションパネルで、[統合管理] をクリックして、統合環境に関する情報を表示します。

Grafanaダッシュボードの表示

  1. ARMSコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。

  3. [統合管理] ページの [統合環境] タブで、[クラウドサービスリージョン] をクリックします。

  4. [クラウドサービスリージョン] タブで、管理する環境インスタンスの名前をクリックします。

  5. [コンポーネント管理] ページで、[アドオンの種類] セクションを見つけ、[ダッシュボード] をクリックして組み込みダッシュボードを表示します。image

  6. ダッシュボード名をクリックして、クォータ情報を表示します。d3bae3f2d8c2bc286812e5969e1b9118

Prometheusアラートの設定

次の手順を実行して、Prometheusアラートを設定します。

  1. ARMSコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[統合管理] をクリックします。

  3. [統合管理] ページの [統合環境] タブで、[クラウドサービスリージョン] をクリックします。

  4. [クラウドサービスリージョン] タブで、管理する環境インスタンスの名前をクリックします。

  5. [コンポーネント管理] ページで、[追加タイプ] セクションの [アラートルール] をクリックして、組み込みのアラートルールを表示します。image

  6. 組み込みのアラートルールはアラートイベントを生成しますが、アラート通知は送信しません。 次のいずれかの方法を使用して、電子メールまたは他のプラットフォームを使用してアラート通知を送信できます。

    • 通知ポリシーを作成し、アラートイベントの一致ルールを指定します。 一致するルールがトリガーされると、指定された通知方法を使用して、アラート通知が連絡先に送信されます。 詳細については、「通知ポリシーの作成と管理」をご参照ください。

    • [操作] 列の [編集] をクリックし、通知方法を設定します。

      imagePrometheusアラートルールの編集ページで、アラート条件、期間、アラートメッセージ、アラート通知を指定できます。 詳細については、「Prometheusインスタンスのアラートルールの作成」をご参照ください。