CloudMonitor は、クォータの監視とアラート機能を提供します。クォータ監視は、包括的なメトリックセットに基づいて、リソースクォータの使用状況をリアルタイムで把握するのに役立ちます。クォータアラートを使用すると、クォータのアラートルールを構成し、CPU 使用率などのメトリックが指定されたしきい値を超えたときに通知を受け取ることができます。このトピックでは、CloudMonitor または Application Real-Time Monitoring Service (ARMS) を使用して、メトリックデータの表示、クォータアラートの構成、および関連データを受信するためのメトリックのサブスクライブを行う方法について説明します。
前提条件
リソースクォータが作成されていること。リソースクォータの作成方法については、「概要」をご参照ください。
メトリック
クォータ監視は、CPU、メモリ、ディスク、ネットワーク、GPU のパフォーマンスに関するメトリックを提供します。次の表は、特定の主要なメトリックについて説明しています。サポートされているすべてのメトリックについては、PAI-Quota 時系列メトリック ページをご覧ください。
メトリック | 説明 |
QUOTA_CPU_REQUEST | 指定されたクォータのスケジュールされた CPU コア数。 |
QUOTA_CPU_TOTAL | 指定されたクォータの CPU コアの合計数。 |
QUOTA_CPU_UTIL | 指定されたクォータの CPU 使用率。 |
QUOTA_GPU_ACCELERATOR_DUTTY_UTIL | 指定されたクォータの GPU 計算能力の使用率。 |
QUOTA_GPU_ACCELERATOR_MEMORY_UTIL | 指定されたクォータの GPU メモリ使用量。 |
QUOTA_GPU_ACCELERATOR_REQUEST | 指定されたクォータのスケジュールされた GPU の数。 |
QUOTA_GPU_ACCELERATOR_TOTAL | 指定されたクォータの GPU の合計数。 |
QUOTA_GPU_POWER_USAGE | 指定されたクォータの GPU 消費電力。 |
QUOTA_MEMORY_UTIL | 指定されたクォータのメモリ使用量。 |
CloudMonitor を使用する
CloudMonitor は、Alibaba Cloud リソースとインターネットアプリケーションを監視するサービスです。CloudMonitor は、ワンストップで、すぐに使える、エンタープライズクラスの監視ソリューションを提供します。CloudMonitor コンソールにログインして、PAI-Quota に関するメトリックデータを表示し、アラートを構成できます。CloudMonitor は、メトリックをサブスクライブしたり、カスタム監視ダッシュボードを作成したりするために使用できる API 操作も提供します。詳細については、「CloudMonitor とは」をご参照ください。
課金
CloudMonitor は、特定量の無料クォータを提供します。詳細については、「従量課金」をご参照ください。
メトリックデータを表示する
CloudMonitor コンソール にログインします。
左側のナビゲーションウィンドウで、
を選択します。[クラウドサービス監視ダッシュボード] ページで、ドロップダウンリストから PAI-Quota を選択します。検索ボックスに リソースクォータ名を入力するか、ドロップダウンリストからリソースクォータ名を選択します。ダッシュボードにクォータ使用量のチャートが表示されます。
ダッシュボードでは、次の操作を実行できます。
ディメンションの切り替え: クォータとノード ディメンションを使用してメトリック データをフィルタリングします。
統計の時間範囲の変更:
チャートの展開: チャートの右上隅にある
アイコンをクリックして詳細を表示します。
クォータアラートを構成する
クォータの使用状況を事前に監視し、ビジネス要件に基づいてアラートルールを構成できます。メトリックがアラートルールで指定されたしきい値を超えると、アラート通知が送信されます。次のセクションでは、CloudMonitor コンソールでクォータアラートを構成する方法について説明します。
ステップ 1:アラート連絡先を構成する
CloudMonitor コンソール にログインします。
左側のナビゲーションウィンドウで、 を選択します。
[アラート連絡先] タブで、[アラート連絡先の作成] をクリックします。
[アラート連絡先の設定] パネルで、アラート連絡先の名前、メールアドレス、Webhook URL を入力します。
[OK] をクリックします。
[アラート連絡グループ] タブで、[アラート連絡グループの作成] をクリックします。
[アラート連絡グループの作成] パネルで、アラート連絡グループの名前を入力し、アラート連絡先をアラート連絡グループに追加します。
[確認] をクリックします。
ステップ 2:アラートルールを構成する
CloudMonitor コンソール の左側のナビゲーションウィンドウで、 を選択します。
[クラウドサービス監視] ページで、PAI-Quota を検索します。
[pai-quota] ページに移動し、サービスがデプロイされているリージョンを選択して、[アラートルールの作成] をクリックします。
[アラートルールの作成] パネルで、パラメータを構成し、[確認] をクリックします。次の表にパラメータを示します。
パラメータ
説明
プロダクト
CloudMonitor を使用して監視するサービス。この例では、ドロップダウンリストから [pai-quota] を選択します。
リソース範囲
アラートルールを適用するリソース。有効な値:
すべてのリソース: リソースクォータがアラートルールで指定された条件を満たすと、アラート通知が送信されます。
[インスタンス]: [インスタンスの追加] をクリックし、監視するリソースクォータを追加します。選択したリソースクォータがアラートルールで指定された条件を満たした場合にのみ、アラート通知が送信されます。
ルールの説明
アラートをトリガーする条件。このパラメータの構成方法については、「アラートルールを作成する」をご参照ください。
ミュート時間
アラートがクリアされていないときに別のアラート通知が送信される間隔。
有効期間
アラートルールが有効になる期間。CloudMonitor は、指定されたリソースクォータを監視し、指定された有効期間内にのみアラートを生成します。
アラート連絡グループ
アラート通知の送信先となる連絡先グループ。アラート連絡先を含む連絡先グループを選択します。
タグ
カスタムアラートルールのタグ。タグは名前と値で構成されます。
[PAI クォータ] ページで、[アラートルールを表示] をクリックして、作成したルールの詳細を表示します。[アクション] 列の [アラート履歴] をクリックすると、アラート履歴を表示できます。 アラートルールを変更することもできます。
API 操作を呼び出して、アラート履歴の表示、アラートテンプレートの管理、アラートルールの作成、アラート連絡先の追加など、クォータアラートを構成および管理できます。CloudMonitor API 操作を呼び出してクォータアラートを構成および管理する方法については、「アラートサービス」をご参照ください。
メトリックをサブスクライブする
CloudMonitor は、メトリックをサブスクライブしたり、カスタムリソース監視ダッシュボードを作成したりするために使用できる包括的な API 操作セットを提供します。詳細については、「関数別の操作リスト」をご参照ください。
API 操作 | 説明 |
メトリックの最新の監視データをクエリします。 | |
クラウドサービスのメトリックの監視データをクエリします。 | |
クラウドサービスのメトリックの監視データをクエリします。 | |
CloudMonitor でサポートされているメトリックの詳細をクエリします。 | |
CloudMonitor で監視されているサービスに関する情報をクエリします。 | |
クラウドサービスのメトリックの最新の監視データをクエリします。データは指定された順序でソートできます。 |
この例では、DescribeMetricList 操作を使用して、PAI の Deep Learning Containers (DLC) の特定のメトリックのデータをクエリする方法を示します。
PAI-Quota 時系列メトリック ページに移動します。
サブスクライブするメトリックを見つけ、[アクション] 列の [メトリックデータを取得] をクリックします。
OpenAPI ポータルで、主要なパラメータを構成します。その他のパラメータにはデフォルト値を使用します。次の表は、主要なパラメータについて説明しています。すべてのパラメータについては、「DescribeMetricList」をご参照ください。
パラメータ
説明
パラメータ
説明
名前空間
クラウドサービスの名前空間。例:acs_pai_quota。
MetricName
監視するメトリックの名前。例:QUOTA_CPU_REQUEST。
StartTime
クエリの時間範囲の開始。例:2024-05-15 00:00:00。
EndTime
クエリの時間範囲の終了。例:2024-05-28 00:00:00。
時間範囲は 31 日以下である必要があります。
パラメータを構成した後、[呼び出しを開始] をクリックして、指定した時間範囲のメトリックデータを表示します。
ARMS を使用する
Application Real-Time Monitoring Service (ARMS) は、クラウドネイティブの可観測性プラットフォームです。ARMS の機能に基づいて、PAI-Quota のカスタム Grafana ダッシュボードを構築したり、柔軟な Prometheus アラートを構成したりできます。詳細については、「ARMS とは」をご参照ください。
課金
課金情報については、「Managed Service for Prometheus インスタンスの課金」をご参照ください。
監視データを統合する
次の手順を実行します。
ARMS コンソール にログインします。
左側のナビゲーションウィンドウで、[統合センター] をクリックします。
[統合センター] ページの左側のナビゲーションパネルで、[AI] をクリックします。次に、AI セクションの [aliyun Pai-quota] タブをクリックします。
オプション。Aliyun PAI-Quota 構成パネルで、監視ダッシュボードをプレビューし、収集メトリックとすべてのアラートルールテンプレートを表示できます。
プレビューメトリックを収集するアラートルールテンプレート[プレビュー] タブをクリックして、監視ダッシュボードをプレビューします。
[メトリックを収集する] タブをクリックして、収集メトリックを表示します。
[アラートルールテンプレート] タブをクリックして、アラートルールテンプレートを表示します。
[統合の開始] タブをクリックして、監視データの統合を開始します。次に、関連パラメータを構成し、[OK] をクリックします。次の表にパラメータを示します。
パラメータ
説明
パラメータ
説明
リージョンを選択
データを保存するリージョンを選択します。
名前
CloudMonitor コンソールの画面上の指示に従ってアクセス名を構成します。
統合プロセスには約 1 ~ 2 分かかります。
左側のナビゲーションパネルで、[統合管理] をクリックして、統合環境に関する情報を表示します。
Grafana ダッシュボードを表示する
ARMS コンソール にログインします。
左側のナビゲーションウィンドウで、[統合管理] をクリックします。
[統合管理] ページの [統合環境] タブで、[クラウドサービスリージョン] をクリックします。
[クラウドサービスリージョン] タブで、管理する環境インスタンスの名前をクリックします。
[コンポーネント管理] ページで、[アドオンタイプ] セクションを見つけ、[ダッシュボード] をクリックして、組み込みダッシュボードを表示します。
ダッシュボード名をクリックして、クォータ情報を表示します。
Prometheus アラートを構成する
Prometheus アラートを構成するには、次の手順を実行します。
ARMS コンソール にログインします。
左側のナビゲーションウィンドウで、[統合管理] をクリックします。
[統合管理] ページの [統合環境] タブで、[クラウドサービスリージョン] をクリックします。
[クラウドサービスリージョン] タブで、管理する環境インスタンスの名前をクリックします。
[コンポーネント管理] ページで、[アドオンタイプ] セクションの [アラートルール] をクリックして、組み込みアラートルールを表示します。
組み込みアラートルールはアラートイベントを生成しますが、アラート通知は送信しません。メールまたはその他のプラットフォームを使用してアラート通知を送信するには、次のいずれかの方法を使用します。
通知ポリシーを作成し、アラートイベントの一致ルールを指定します。一致ルールがトリガーされると、指定された通知方法を使用して、連絡先にアラート通知が送信されます。詳細については、「通知ポリシーを作成および管理する」をご参照ください。
[アクション] 列の [編集] をクリックし、通知方法を構成します。
Prometheus アラートルールの編集ページでは、アラート条件、期間、アラートメッセージ、アラート通知を指定できます。詳細については、「Prometheus インスタンスのアラートルールを作成する」をご参照ください。