すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:サービス監視の概要

最終更新日:Mar 07, 2026

EAS サービスをデプロイした後、サービス監視ページで関連メトリックを表示して、サービスの呼び出しと操作を把握できます。このトピックでは、サービス監視情報の表示方法と監視メトリックの詳細について説明します。

サービス監視情報の表示

  1. PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。

  2. 対象のサービス名をクリックして詳細ページに移動します。Monitoring タブに切り替えます。

  3. サービス監視情報を表示できます。

    ダッシュボードの切り替え

    ダッシュボードはサービスとインスタンスのディメンションに分かれています。次のように切り替えることができます。

    image

    • サービス:これはサービスディメンションです。デフォルトのサービス監視ダッシュボード名のフォーマットは Service-<service_name> です。ここで <service_name> は EAS サービス名です。

    • インスタンス:これはインスタンスディメンションで、単一インスタンスと複数インスタンスに分かれています。

      • 単一インスタンス:このダッシュボードには、単一インスタンスのモニタリングデータが表示されます。異なるインスタンスを切り替えて、それぞれのデータを表示できます。

        image

      • 複数インスタンス:このダッシュボードには、複数インスタンスのモニタリングデータが表示されます。複数のインスタンスを選択して、データを比較表示できます。

        image

    時間範囲の切り替え

    ダッシュボードに表示される時間範囲を切り替えるには、[モニタリング] エリアの右側にあるimageをクリックします。

    image

    重要

    分レベルの監視メトリックは最大 1 か月間保持されます。秒レベルの監視メトリックは最大 1 時間保持されます。

    重要

    LLM 関連の監視項目は、サービスタグに "ServiceEngineType": "vllm" または "ServiceEngineType" : "sglang" が設定されている場合にのみ表示されます。

監視メトリックの説明

サービス監視ダッシュボード (分レベル)

このダッシュボードでは、以下のメトリックを監視します。

メトリック

説明

QPS

サービスの 1 秒あたりのリクエスト数。異なるリターンコードを持つリクエストは個別に計算されます。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの合計値です。1d オフセットは、前日の同じ時刻の QPS データを示します。時系列データの分析に使用します。

応答

選択した時間範囲内にサービスが受信した合計応答数。異なるリターンコードを持つ応答は個別に計算されます。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの合計値です。

RT

リクエスト応答時間。

  • Avg:その時点でのすべてのリクエストの平均応答時間。

  • TPXX:その時点ですべてのリクエスト時間を低いものから高いものへとソートした後、上位 XX パーセントのリクエストの最大応答時間。

    たとえば、TP5 は上位 5% のリクエストの最大応答時間を示します。TP100 はすべてのリクエストの最大応答時間を示します。

    サービスに複数のインスタンスが含まれる場合、TP100 はすべてのインスタンスにわたる最大リクエスト応答時間を示します。他の TPXX 値は、すべてのインスタンスにわたる TPXX の平均値です。たとえば、TP5 はすべてのインスタンスにわたる TP5 の平均値を示します。

日次呼び出し

1 日あたりのサービス呼び出し数。異なるリターンコードを持つ呼び出しは個別に計算されます。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの合計値です。

その他のメトリック (CPU | メモリ | GPU | ネットワーク | リソース)

メトリック

説明

CPU

CPU

その時点でのサービスの平均 CPU 使用量。単位:CPU コア。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

CPU 使用率

その時点でのサービスの平均 CPU 使用率。計算式:平均 CPU 使用量 ÷ 最大利用可能 CPU コア数。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

CPU 合計

その時点でのサービスで利用可能な合計 CPU コア数。計算式:単一インスタンスあたりの利用可能 CPU コア数 × サービスインスタンス数。

メモリ

メモリ

その時点でのサービスの平均メモリ使用量。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

  • RSS:常駐物理メモリサイズ。

  • キャッシュ:キャッシュサイズ。

  • 合計:単一インスタンスで利用可能な最大物理メモリサイズ。

メモリ使用率

その時点でのサービスの平均メモリ使用率。計算式:メモリ RSS ÷ メモリ 合計。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

GPU

GPU 使用率

デプロイされたサービスが GPU を使用する場合、このメトリックはその時点でのサービスの平均 GPU 使用率を示します。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

GPU メモリ

デプロイされたサービスが GPU を使用する場合、このメトリックはその時点でのサービスの GPU メモリ使用量を示します。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

GPU 合計

デプロイされたサービスが GPU を使用する場合、このメトリックはその時点でのサービスの合計 GPU 量を示します。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの GPU の合計値です。

GPU メモリ使用率

デプロイされたサービスが GPU を使用する場合、このメトリックはその時点でのサービスの GPU メモリ使用率を示します。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

ネットワーク

トラフィック

サービスが受信および送信したトラフィック量 (ビット/秒)。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

以下:

  • In:サービスが受信したトラフィック。

  • Out:サービスが送信したトラフィック。

TCP 接続数

TCP 接続数。

リソース

レプリカ

その時点での異なる状態にあるサービスインスタンスの数:合計、保留中、利用可能。

リソースタイプ別レプリカ

その時点でのリソースタイプ別のサービスインスタンス数:合計、専用 (専用リソース)、パブリック (パブリックリソース)。

単一インスタンス監視ダッシュボード (分レベル)

このダッシュボードでは、以下のメトリックを監視します。

メトリック

説明

QPS

このインスタンスが受信した 1 秒あたりのリクエスト数。異なるリターンコードを持つリクエストは個別に計算されます。

RT

このインスタンスのリクエストの応答時間。

応答

選択した時間範囲内にこのインスタンスが受信した合計応答数。異なるリターンコードを持つ応答は個別に計算されます。

その他のメトリック (CPU | メモリ | GPU | ネットワーク | リソース)

メトリック

説明

CPU

CPU

このインスタンスの CPU 使用量 (CPU コア単位)。

CPU 使用率

その時点でのこのインスタンスの平均 CPU 使用率。計算式:平均 CPU 使用量 ÷ 最大利用可能 CPU コア数。

メモリ

メモリ

このインスタンスのメモリ使用量。

  • RSS:常駐物理メモリサイズ。

  • キャッシュ:キャッシュサイズ。

  • 合計:単一インスタンスで利用可能な最大物理メモリサイズ。

メモリ使用率

その時点でのこのインスタンスの平均メモリ使用率。計算式:メモリ RSS ÷ メモリ 合計

GPU

GPU 使用率

このインスタンスの GPU 使用率。

GPU メモリ

このインスタンスの GPU メモリ使用量。

GPU メモリ使用率

このインスタンスの GPU メモリ使用率。

ネットワーク

トラフィック

このインスタンスが受信および送信したトラフィック量 (ビット/秒)。

ここで:

  • In:このインスタンスが受信したトラフィック。

  • Out:このインスタンスが送信したトラフィック。

TCP 接続数

TCP 接続数。

複数インスタンス監視ダッシュボード

分レベルと秒レベルの監視メトリックについて、以下に詳しく説明します。

  • 分レベル

    メトリック

    説明

    インスタンス QPS

    各インスタンスの 1 秒あたりのリクエスト数。異なるリターンコードを持つリクエストは個別に計算されます。

    インスタンス RT

    各インスタンスの平均応答時間。

    インスタンス CPU

    各インスタンスの CPU 使用量 (CPU コア単位)。

    インスタンスメモリ -- RSS

    各インスタンスの常駐物理メモリサイズ。

    インスタンスメモリ -- キャッシュ

    各インスタンスのキャッシュサイズ。

    インスタンス GPU

    各インスタンスの GPU 使用率。

    インスタンス GPU メモリ

    各インスタンスの GPU メモリ使用量。

    インスタンス TCP 接続数

    各インスタンスの TCP 接続数。

  • 第2レベル

    重要

    データ精度は 5 秒です。最後の 1 時間のデータのみが保持されます。

    メトリック

    説明

    インスタンス QPS (詳細)

    各インスタンスが受信した 1 秒あたりのリクエスト数。異なるリターンコードを持つリクエストは個別に計算されます。

    インスタンス RT (詳細)

    各インスタンスが受信したリクエストの平均応答時間。

GPU 監視ダッシュボード

サービスレベルおよびインスタンスレベルで、以下の GPU メトリックを監視できます。サービスレベルのメトリックは、すべてのインスタンスの平均値を表します。

メトリック

説明

GPU 使用率

その時点でのサービスの GPU 使用率。

GPU メモリ

その時点でのサービスの GPU メモリ使用量と合計 GPU メモリ。

  • 使用済み:その時点での GPU メモリ使用量。

  • 合計:その時点での合計 GPU メモリ。

メモリコピー使用率

その時点でのサービスの GPU メモリコピー使用率。

GPU メモリ使用率

その時点でのサービスの GPU メモリ使用率。計算式:メモリ使用量 ÷ 合計メモリ。

PCIe

その時点でのサービスの PCIe (Peripheral Component Interconnect Express) レート (DCGM で測定)。PCIe は、高速シリアルコンピュータ拡張バス規格です。

  • PCIe 送信:その時点での PCIe 送信レート。

  • PCIe 受信:その時点での PCIe 受信レート。

メモリ帯域幅

その時点でのサービスの GPU メモリ帯域幅メトリック。

SM 使用率と占有率

その時点でのサービスの SM (ストリーミングマルチプロセッサ) 関連メトリック。SM は GPU のコアコンポーネントであり、並列計算タスクの実行とスケジューリングを担当します。

  • SM 使用率:その時点での SM 使用率。

  • SM 占有率:その時点での SM に常駐する Warp スレッドの比率。

グラフィックスエンジン使用率

その時点でのサービスの GPU グラフィックスエンジン使用率。

パイプアクティブ率

その時点でのサービスの GPU 計算パイプラインのアクティビティ率。

  • Pipe Fp32 Active Ratio:その時点での FP32 パイプラインのアクティビティ率。

  • Pipe Fp16 Active Ratio:その時点での FP16 パイプラインのアクティビティ率。

  • Pipe Tensor Active Ratio:その時点での Tensor パイプラインのアクティビティ率。

Tflops 使用量

その時点でのサービスの GPU 計算パイプラインの Tflops (テラフロップス) 計算ボリューム。

  • FP32 Tflops Used:その時点での FP32 パイプラインの Tflops 計算ボリューム。

  • FP16 Tflops Used:その時点での FP16 パイプラインの Tflops 計算ボリューム。

  • Tensor Tflops Used:その時点での Tensor パイプラインの Tflops 計算ボリューム。

DRAM アクティブ率

その時点での GPU デバイスインターフェイスがデータを送受信しているアクティビティ率。

SM クロック

その時点でのサービスの SM クロック周波数。

GPU 温度

その時点でのサービスの GPU 温度関連メトリック。

  • GPU 温度:その時点での GPU 温度。

  • GPU 速度制限温度:その時点での GPU 速度制限温度のしきい値。GPU 温度がこの値に達すると、GPU は過熱を防ぐために自動的に動作周波数を下げます。

  • GPU シャットダウン温度:その時点での GPU シャットダウン温度のしきい値。GPU 温度がこの値に達すると、システムは GPU デバイスを強制的にシャットダウンします。これにより、GPU の過熱によるハードウェアの損傷や、より深刻なシステム障害を防ぎます。

電力使用量

その時点でのサービスの GPU 消費電力。

以下は、GPU のヘルスステータスと異常情報に関するメトリックです。

メトリック

説明

GPU ヘルスカウント

その時点でのサービスの正常な GPU カードの数。

GPU ロストカード数

その時点でのサービスの失われた GPU カードの数。

ECC エラー数

その時点でのサービスの ECC エラー数。ECC (誤り訂正符号) は、GPU メモリのデータ転送またはストレージ中のエラーを検出および訂正します。

  • Volatile SBE ECC Error:その時点でのサービスの単一ビット揮発性 ECC エラー数。

  • Volatile DBE ECC Error:その時点でのサービスのダブルビット揮発性 ECC エラー数。

  • Aggregate SBE ECC Error:その時点でのサービスの単一ビット永続性 ECC エラー数。

  • Aggregate DBE ECC Error:その時点でのサービスのダブルビット永続性 ECC エラー数。

  • Uncorrectable ECC Error:その時点でのサービスの訂正不可能な ECC エラー数。

NVSwitch エラー数

その時点でのサービスの NVSwitch エラー数。NVSwitch は、複数の GPU 間の高速通信のために、高帯域幅、低レイテンシーの通信チャネルを提供します。

  • NVSwitch Fatal Error:その時点でのサービスの致命的な NVSwitch エラー数。

  • NVSwitch Non-Fatal Error:その時点でのサービスの致命的でない NVSwitch エラー数。

Xid エラー数

その時点でのサービスの Xid エラー数。Xid エラーは、GPU ドライバーによって報告されるエラーコードです。GPU が操作中に遭遇した問題を示します。これらのエラーは通常、システムログ (Linux の dmesg や Windows のイベントビューアーなど) に記録され、Xid コードとして表されます。

  • Xid Error:その時点でのサービスの致命的でない Xid エラー数。

  • Fatal Xid Error:その時点でのサービスの致命的な Xid エラー数。

カーネルエラー数

その時点でのサービスの非 Xid エラー数。非 Xid エラーとは、Xid エラーを除く、カーネルログで報告される他の種類のエラーを指します。

ドライバーハング

その時点でのサービスの GPU ドライバーのハング数。

リマップステータス

GPU が GPU メモリ行をリマップしようとしたときのサービスの状態。

VLLM 監視ダッシュボード

サービスに複数のインスタンスがある場合、スループット関連のメトリックはインスタンスの合計値です。レイテンシー関連のメトリックはインスタンスの平均値です。

メトリック

説明

リクエストステータス

その時点でのサービスの合計リクエスト数。

  • 実行中:その時点での GPU で実行中のリクエスト数。

  • 待機中:その時点での処理を待機しているリクエスト数。

  • スワップ済み:その時点での CPU にスワップされたリクエスト数。

トークンスループット

その時点でのサービスのすべてのリクエストの入力トークンと生成トークンの数。

  • TPS_IN:その時点での入力トークン数。

  • TPS_OUT:その時点での出力トークン数。

リクエスト完了ステータス

その時点でのサービスのすべてのリクエストの完了ステータス統計。

  • preemptions:プリエンプトされたリクエスト。

  • stop:自然終了 (モデルが <EOS> などの停止トークンを出力) により正常に完了したリクエスト。

  • length:最大出力トークン長に達したリクエスト。

  • abort:強制的に終了されたリクエスト。

最初のトークンまでの時間

その時点でのサービスのすべてのリクエストの最初のトークンまでの時間レイテンシー (リクエストを受信してから最初のトークンを生成するまでの時間)。

  • Avg:その時点でのすべてのリクエストの平均最初のトークンまでの時間レイテンシー。

  • TPXX:その時点でのすべてのリクエストの最初のトークンまでの時間レイテンシーのパーセンタイル値。

出力トークンあたりの時間

その時点でのサービスのすべてのリクエストの出力トークンあたりの時間レイテンシー (最初のトークンが生成された後、各出力トークンに必要な平均時間)。

  • Avg:その時点でのすべてのリクエストのトークンあたりの平均時間レイテンシー。

  • TPXX:その時点でのすべてのリクエストのトークンあたりの時間レイテンシーのパーセンタイル値。

E2E リクエストレイテンシー

その時点でのサービスのすべてのリクエストのエンドツーエンドレイテンシー (リクエストを受信してからすべてのトークンを返すまでの時間)。

  • Avg:その時点でのすべてのリクエストの平均エンドツーエンドレイテンシー。

  • TPXX:その時点でのすべてのリクエストのエンドツーエンドレイテンシーのパーセンタイル値。

キュー時間

その時点でのサービスのすべてのリクエストのキュー待機レイテンシー (リクエストがエンジン処理を待機する時間)。

  • Avg:その時点でのすべてのリクエストの平均キュー待機レイテンシー。

  • TPXX:その時点でのすべてのリクエストのキュー待機レイテンシーのパーセンタイル値。

推論時間

その時点でのサービスのすべてのリクエストの推論レイテンシー (リクエストがエンジンによって処理される時間)。

  • Avg:その時点でのすべてのリクエストの平均推論レイテンシー。

  • TPXX:その時点でのすべてのリクエストの推論レイテンシーのパーセンタイル値。

Prefill 時間

その時点でのサービスのすべてのリクエストの Prefill ステージレイテンシー (エンジンがリクエスト入力トークンを処理する時間)。

  • Avg:その時点でのすべてのリクエストの平均 Prefill レイテンシー。

  • TPXX:その時点でのすべてのリクエストの Prefill レイテンシーのパーセンタイル値。

Decode 時間

その時点でのサービスのすべてのリクエストの Decode ステージレイテンシー (エンジンが出力トークンを生成する時間)。

  • Avg:その時点でのすべてのリクエストの平均 Decode レイテンシー。

  • TPXX:その時点でのすべてのリクエストの Decode レイテンシーのパーセンタイル値。

入力トークン長

その時点でのサービスによって処理された入力トークンの数。

  • Avg:その時点でのすべてのリクエストの平均入力トークン長。

  • TPXX:その時点でのすべてのリクエストの入力トークン長のパーセンタイル値。

出力トークン長

その時点でのサービスによって生成された出力トークンの数。

  • Avg:その時点でのすべてのリクエストの平均出力トークン長。

  • TPXX:その時点でのすべてのリクエストの出力トークン長のパーセンタイル値。

リクエストパラメーター (params_n & max_tokens)

その時点でのサービスのすべてのリクエストのパラメーター N とパラメーター max_tokens

  • Params_n:その時点でのすべてのリクエストのパラメーター N の平均値。

  • Params_max_tokens:その時点でのすべてのリクエストのパラメーター max_tokens の平均値。

GPU KV キャッシュ使用率

その時点でのサービスの平均 GPU KV キャッシュ使用率。

CPU KV キャッシュ使用率

その時点でのサービスの平均 CPU KV キャッシュ使用率。

プレフィックスキャッシュヒット率

その時点でのサービスのすべてのリクエストの平均プレフィックスキャッシュヒット率。

  • GPU:その時点でのすべてのリクエストの平均 GPU プレフィックスキャッシュヒット率。

  • CPU:その時点でのすべてのリクエストの平均 CPU プレフィックスキャッシュヒット率。

エンドポイント別 HTTP リクエスト

その時点でのサービスのリクエスト数 (リクエストメソッド、パス、および応答ステータスコードでグループ化)。

HTTP リクエストレイテンシー

その時点でのサービスの異なるリクエストパスの平均レイテンシー。

投機的デコーディングスループット

その時点でのサービスの投機的デコーディング数。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

  • Drafts:その時点での生成された Drafts トークン数。

  • Draft Tokens:その時点での処理された Drafts トークン数。

  • Accepted Tokens:その時点での受け入れられた Drafts トークン数。

  • Emitted Tokens:その時点での発行された Drafts トークン数。

投機的デコーディング効率

その時点でのサービスの投機的デコーディングのパフォーマンス。

  • Draft Acceptance Rate:その時点での受け入れられた Drafts トークンの平均比率。

  • Efficiency:その時点での投機的デコーディングの平均効率。

位置別トークン受け入れ

その時点でのサービスの異なる生成位置で受け入れられた Drafts トークン数。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

SGLang 監視ダッシュボード

サービスに複数のインスタンスがある場合、スループット関連のメトリックはインスタンスの合計値です。レイテンシー関連のメトリックはインスタンスの平均値です。

メトリック

説明

リクエスト数

その時点でのサービスの合計リクエスト数。

  • 実行中:その時点での GPU で実行中のリクエスト数。

  • 待機中:その時点での処理を待機しているリクエスト数。

トークンスループット

その時点でのサービスのすべてのリクエストの入力トークンと生成トークンの数。

  • TPS_IN:その時点での入力トークン数。

  • TPS_OUT:その時点での出力トークン数。

最初のトークンまでの時間

その時点でのサービスのすべてのリクエストの最初のトークンまでの時間レイテンシー。最初のトークンまでの時間レイテンシーは、リクエストを受信してから最初のトークンを生成するまでの時間です。

  • Avg:その時点でのすべてのリクエストの平均最初のトークンまでの時間レイテンシー。

  • TPXX:その時点でのすべてのリクエストの最初のトークンまでの時間レイテンシーのパーセンタイル値。

出力トークンあたりの時間

その時点でのサービスのすべてのリクエストの出力トークンあたりの時間レイテンシー。トークンあたりの時間レイテンシーは、最初のトークンが生成された後、後続の各出力トークンに必要な平均時間です。

  • Avg:その時点でのすべてのリクエストのトークンあたりの平均時間レイテンシー。

  • TPXX:その時点でのすべてのリクエストのトークンあたりの時間レイテンシーのパーセンタイル値。

E2E リクエストレイテンシー

その時点でのサービスのすべてのリクエストのエンドツーエンドレイテンシー。エンドツーエンドレイテンシーは、リクエストを受信してからすべてのトークンを返すまでの時間です。

  • Avg:その時点でのすべてのリクエストの平均エンドツーエンドレイテンシー。

  • TPXX:その時点でのすべてのリクエストのエンドツーエンドレイテンシーのパーセンタイル値。

キャッシュヒット率

その時点でのサービスのすべてのリクエストの平均プレフィックスキャッシュヒット率。

使用済みトークン数

その時点でのサービスが使用した KV キャッシュトークンの数。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

トークン使用量

その時点でのサービスの平均 KV キャッシュトークン使用率。サービスに複数のインスタンスが含まれる場合、このメトリックはすべてのインスタンスの平均値です。

よくある質問

Q: 監視ページに LLM 監視ダッシュボードが表示されない

問題の説明:EAS カスタムデプロイメントを使用してモデルをデプロイした後、監視ページには一般的なサービスおよび GPU 監視のみが表示され、LLM 監視が表示されません。

根本原因:サービス構成にキータグ ServiceEngineType がありません。このタグは、バックエンド推論エンジンのタイプを明示的に宣言します。

image

説明

モデルギャラリーのデプロイメントによって提供される他のパラメーターは、ServiceEngineType タグを除き、LLM 監視に影響しません。

解決策:サービス構成を更新します。ServiceEngineType タグを追加します。使用する推論デプロイメントエンジンに基づいて値を設定します (vllm または sglang のみがサポートされています)。

Q: なぜ /metrics 200 がログに頻繁に表示されるのですか?

ServiceEngineType タグが正しく構成され、有効になると、EAS バックエンドは定期的に推論デプロイメントフレームワークの /metrics API 操作を呼び出します。これは、コレクション間隔とすべての Pod にわたるポーリングを含め、約 10〜15 秒ごとに発生します。この API 操作は、Prometheus フォーマットでリアルタイムのフレームワークメトリックを提供し、フロントエンドはこれを使用して LLM 監視データをレンダリングします。

参考資料

  • サービス監視アラートを有効にすると、サービスがアラートルールをトリガーしたときにアラート通知を受け取ります。

  • Cloud Monitor コンソールまたは API 操作を通じて EAS Cloud Monitor イベントを表示できます。これにより、これらのイベントに対する O&M、監査、またはアラート設定を実行できます。

  • ビジネスロジックに基づいて Auto Scaling のカスタム監視メトリックを設定できます。詳細については、「カスタムモニタリングとスケーリングメトリック」をご参照ください。