EAS監控指標 - Platform For AI

EAS服務部署成功後，您可以在服務監控頁面查看相關指標，瞭解服務的調用和運行情況。本文介紹如何查看服務監控資訊並提供監控指標的詳細說明。

查看服務監控資訊

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
單擊目標服務名稱進入詳情頁面，切換到监控頁簽。
查看服務監控資訊。
切換儀錶盤
儀錶盤分為服務和執行個體維度，切換方式如下：
- Service：服務維度，預設服務監控儀錶盤名稱格式為Service-<service_name>，其中<service_name>是EAS服務的名稱。
- Instance：執行個體維度，分單一實例和多執行個體。
  - Single Instance：單一實例監控儀錶盤，支援切換不同執行個體查看。
  - Multiple Instance：多執行個體監控儀錶盤，可自由選擇多個執行個體對比查看。
切換時間範圍
單擊監控地區右側的，切換儀錶盤展示的時間範圍。
重要
目前分鐘級監控指標最多保留1個月，秒級監控指標最多保留1個小時。
重要
當服務標籤配置了"ServiceEngineType": "vllm"或"ServiceEngineType" : "sglang"時，才會展示LLM相關的監控項。

監控指標說明

服務監控儀錶盤（分鐘級）

您可以在該儀錶盤監控以下指標：

指標		說明
QPS		服務每秒的請求數。不同返回碼的請求數會分開計算。如果服務包含多個執行個體，則此處的指標為所有執行個體之和。其中，1d offset表示前一天同一時間的QPS資料，可用於分析環比資料。
Response		服務在選定時間範圍內接收的響應總數。不同返回碼的響應數會分開計算。如果服務包含多個執行個體，則此處的指標為所有執行個體之和。
RT		請求的回應時間。 Avg：表示該時間點所有請求的平均回應時間。 TPXX：表示將該時間點所有請求時間從低到高排序後，前百分之XX請求的最大回應時間。例如：TP5表示前百分之五請求的最大回應時間；TP100表示所有請求的最大回應時間。如果服務包含多個執行個體，TP100表示所有執行個體的請求最大回應時間；其他TPXX為所有執行個體TPXX的均值，如TP5表示所有執行個體TP5的均值。
Daily Invoke		服務每天的調用量，不同返回碼的調用量會分開計算。如果服務包含多個執行個體，則此處的指標為所有執行個體之和。

更多指標（CPU | Memory | GPU | Network | Resources）

指標		說明
CPU	CPU	服務在該時間點的CPU平均使用量。單位為核心數。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
	CPU Utilization	服務在該時間點CPU平均使用率。計算方法：CPU平均使用量 ÷ 最大可用核心數。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
	CPU Total	服務在該時間點可用的CPU總核心數。計算方法為：單一實例可用CPU核心數 × 服務執行個體數。
Memory	Memory	服務在該時間點的記憶體平均使用量。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。 RSS：表示常駐實體記憶體大小。 Cache：表示緩衝大小。 Total：表示單個執行個體最大可用的實體記憶體大小。
Memory	Memory Utilization	服務在該時間點的記憶體平均使用率。計算方法為：記憶體RSS ÷ 記憶體Total。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
GPU	GPU Utilization	如果部署的服務使用了GPU，該指標表示服務在該時間點的GPU平均使用率。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
	GPU Memory	如果部署的服務使用了GPU，該指標表示服務在該時間點的GPU顯存的使用量。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
	GPU Total	如果部署的服務使用了GPU，該指標表示服務在該時間點的GPU總量。如果服務包含多個執行個體，則此處的指標為所有執行個體的GPU總和。
	GPU Memory Utilization	如果部署的服務使用了GPU，該指標表示服務在該時間點的GPU顯存的使用率。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
Network	Traffic	服務接收和發出的流量大小，單位為位元每秒。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。其中： In：表示服務接收的流量。 Out：表示服務發出的流量。
Network	TCP Connections	TCP串連數。
Resources	Replicas	服務在該時間點不同狀態的執行個體數，分為Total、Pending、Available。
Resources	Replicas By Resource	服務在該時間點不同資源類型的執行個體數，分為Total、Dedicated（專屬資源）、Public（公用資源）。

單執行個體監控儀錶盤（分鐘級）

您可以在該儀錶盤監控以下指標：

指標	說明
QPS	該執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。
RT	該執行個體請求的回應時間。
Response	該執行個體在選定時間範圍內接收的響應總數。不同返回碼的響應數會分開計算。

更多指標（CPU | Memory | GPU | Network | Resources）

指標		說明
CPU	CPU	該執行個體的CPU使用量，單位為核心數。
CPU	CPU Utilization	該執行個體在該時間點CPU平均使用率。計算方法為：CPU平均使用量 ÷ 最大可用核心數。
Memory	Memory	該執行個體的記憶體使用量量。 RSS：表示常駐實體記憶體大小。 Cache：表示緩衝大小。 Total：表示單個執行個體最大可用的實體記憶體大小。
Memory	Memory Utilization	該執行個體在該時間點的記憶體平均使用率。計算方法為：記憶體RSS ÷ 記憶體Total。
GPU	GPU Utilization	該執行個體的GPU使用率。
	GPU Memory	該執行個體的GPU顯存使用量。
	GPU Memory Utilization	該執行個體的GPU顯存使用率。
Network	Traffic	該執行個體接收和發出的流量大小，單位為位元每秒。其中： In：表示該執行個體接收的流量。 Out：表示該執行個體發出的流量。
Network	TCP Connections	TCP串連數。

多執行個體監控儀錶盤

提供分鐘級、秒級監控指標如下。

Minute-Level（分鐘級）

指標	說明
Instance QPS	每個執行個體每秒的請求數。不同返回碼的請求數會分開計算。
Instance RT	每個執行個體的平均回應時間。
Instance CPU	每個執行個體的CPU使用量，單位為核心數。
Instance Memory -- RSS	每個執行個體常駐實體記憶體大小。
Instance Memory -- Cache	每個執行個體緩衝大小。
Instance GPU	每個執行個體GPU使用率。
Instance GPU Memory	每個執行個體GPU顯存的使用量。
Instance TCP Connections	每個執行個體TCP串連數。

Second-Level（秒級）
重要
資料精度精確到5秒層級，只保留最近1個小時的資料。
指標
說明
Instance QPS Fine
每個執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。
Instance RT Fine
每個執行個體接收到請求的平均回應時間。

GPU監控儀錶盤

支援在服務和執行個體層級監控以下GPU指標。如果是服務等級，則指標是所有執行個體的平均值。

指標	說明
GPU Utilization	服務在該時間點的GPU使用率。
GPU Memory	服務在該時間點的GPU顯存使用量與顯存總量。 Used：表示該時間點的GPU顯存使用量。 Total：表示該時間點的GPU顯存總量。
Memory Copy Utilization	服務在該時間點的GPU顯存複製利用率。
GPU Memory Utilization	服務在該時間點的GPU顯存使用率，計算方法為：顯存使用量 ÷ 顯存總量。
PCIe	服務在該時間點的通過DCGM測量的PCIe（Peripheral Component Interconnect Express，高速串列電腦擴充匯流排標準）速率。 PCIe Transmit：表示該時間點的PCIe傳輸速率。 PCIe Receive：表示該時間點的PCIe接收速率。
Memory Bandwidth	服務在該時間點的GPU顯存頻寬指標。
SM Utilization and Occupancy	服務在該時間點的SM（Streaming Multiprocessor，流式多處理器）相關指標，SM是GPU的核心組成部分，負責執行和調度並行計算任務。 SM Utilization：表示該時間點的SM利用率。 SM Occupancy：表示該時間點的SM上駐留的Warp線程數比例。
Graphics Engine Utilization	服務在該時間點的GPU圖形引擎利用率。
Pipe Active Ratio	服務在該時間點的GPU運算管道的活躍率。 Pipe Fp32 Active Ratio：表示該時間點的FP32管道活躍率。 Pipe Fp16 Active Ratio：表示該時間點的Fp16管道活躍率。 Pipe Tensor Active Ratio：表示該時間點的Tensor管道活躍率。
Tflops Usage	服務在該時間點的GPU運算管道的Tflops（Tera floating-point operations per second，每秒萬億次浮點運算）運算量。 FP32 Tflops Used：表示該時間點的FP32管道Tflops運算量。 FP16 Tflops Used：表示該時間點的Fp16管道Tflops運算量。 Tensor Tflops Used：表示該時間點的Tensor管道Tflops運算量。
DRAM Active Ratio	服務在該時間點的GPU裝置顯存介面發送或接收資料的活躍率。
SM Clock	服務在該時間點的SM時鐘頻率。
GPU Temperature	服務在該時間點的GPU溫度相關指標。 GPU Temperature：表示該時間點的GPU溫度。 GPU Slowdown Temperature：表示該時間點的GPU降頻溫度閾值；當GPU溫度達到該值時，GPU將自動降低其工作頻率，以避免GPU裝置過熱。 GPU Shutdown Temperature：表示該時間點的GPU關機溫度閾值；當GPU溫度達到該值時，系統將強制關停GPU裝置以防止GPU因過熱而導致硬體損壞或引發更嚴重的系統故障。
Power Usage	服務在該時間點的GPU功耗。

以下是GPU健康狀態與異常資訊指標：

指標	說明
GPU Health Count	服務在該時間點的健康GPU卡數。
GPU Lost Card Num	服務在該時間點的GPU掉卡數。
ECC Error Count	服務在該時間點的ECC錯誤數。ECC（Error Correction Code，錯誤校正碼）用於檢測和糾正GPU顯存資料轉送或預存程序中的錯誤。 Volatile SBE ECC Error：表示服務在該時間點的單位元易失性ECC錯誤數。 Volatile DBE ECC Error：表示服務在該時間點的雙位元易失性ECC錯誤數。 Aggregate SBE ECC Error：表示服務在該時間點的單位元持久性ECC錯誤數。 Aggregate DBE ECC Error：表示服務在該時間點的雙位元持久性ECC錯誤數。 Uncorrectable ECC Error：表示服務在該時間點的無法糾正的ECC錯誤數。
NVSwitch Error Count	服務在該時間點的NVSwitch錯誤數。NVSwitch 提供高頻寬和低延遲的通訊通道，負責多GPU之間的高速通訊。 NVSwitch Fatal Error：表示服務在該時間點的致命NVSwitch錯誤數。 NVSwitch Non-Fatal Error：表示服務在該時間點的非致命NVSwitch錯誤數。
Xid Error Count	服務在該時間點的Xid錯誤數。Xid錯誤是GPU驅動程式報告的錯誤碼，用於指示GPU在運行過程中遇到的問題，這些錯誤通常通過系統日誌（如Linux的dmesg或Windows的事件檢視器）記錄，並以Xid代碼的形式表示。 Xid Error：表示服務在該時間點的非致命Xid錯誤數。 Fatal Xid Error：表示服務在該時間點的致命Xid錯誤數。
Kernel Error Count	服務在該時間點的非Xid錯誤數。非Xid錯誤（Non-Xid Errors）指的是除了Xid錯誤之外，由核心日誌中報告的其他類型錯誤。
Driver Hang	服務在該時間點的GPU驅動掛起次數。
Remap Status	服務在該時間點GPU在嘗試重新對應顯存行時的狀態。

VLLM監控儀錶盤

如果服務有多個執行個體，以下吞吐相關指標是執行個體的總和，延遲相關指標是執行個體的均值。

指標	說明
Requests Status	服務在該時間點的所有請求數。 Running：表示該時間點正在GPU上啟動並執行請求數。 Waiting：表示該時間點等待處理的請求數。 Swapped：表示該時間點被交換至CPU上的請求數。
Token Throughput	服務在該時間點所有請求的輸入與產生的Token數。 TPS_IN：表示該時間點輸入的Token數。 TPS_OUT：表示該時間點輸出的Token數。
Request Completion Status	服務在該時間點所有請求的完成狀態統計。 preemptions: 請求被搶佔。 stop: 請求因自然終止而成功完成（模型輸出了停止標記，如<EOS>）。 length: 請求已達到最大輸出token長度。 abort: 請求被強制終止。
Time To First Token	服務在該時間點所有請求的首Token延時（從接收到請求到產生第一個Token的時間）。 Avg：表示該時間點所有請求的首Token延遲的平均值。 TPXX：表示該時間點所有請求的首Token延遲的各個分位點值。
Time Per Output Token	服務在該時間點所有請求的每Token延時（產生第一個Token之後的每個輸出Token所需的平均時間）。 Avg：表示該時間點所有請求的每Token延遲的平均值。 TPXX：表示該時間點所有請求的每Token延遲的各個分位點值。
E2E Request Latency	服務在該時間點所有請求的端到端延時（從接收到請求到返回所有Token的時間）。 Avg：表示該時間點所有請求的端到端延遲的平均值。 TPXX：表示該時間點所有請求的端到端延遲的各個分位點值。
Queue Time	服務在該時間點所有請求的排隊等待延時（請求排隊等待被引擎處理的時間）。 Avg：表示該時間點所有請求的排隊等待延時的平均值。 TPXX：表示該時間點所有請求的排隊等待延時的各個分位點值。
Inference Time	服務在該時間點所有請求的推理延時（請求被引擎處理的時間）。 Avg：表示該時間點所有請求的推理延時的平均值。 TPXX：表示該時間點所有請求的推理延時的各個分位點值。
Prefill Time	服務在該時間點所有請求在 Prefill 階段的延時（引擎處理請求輸入Token的時間）。 Avg：表示該時間點所有請求的Prefill延時的平均值。 TPXX：表示該時間點所有請求的Prefill延時的各個分位點值。
Decode Time	服務在該時間點所有請求在 Decode 階段的延時（引擎產生輸出Token的時間）。 Avg：表示該時間點所有請求的Decode延時的平均值。 TPXX：表示該時間點所有請求的Decode延時的各個分位點值。
Input Token Length	服務在該時間點處理的輸入token數。 Avg：表示該時間點所有請求輸入token長度的平均值。 TPXX：表示該時間點所有請求輸入token長度的各個分位點值。
Output Token Length	服務在該時間點產生的輸出token數。 Avg：表示該時間點所有請求輸出token長度的平均值。 TPXX：表示該時間點所有請求輸出token長度的各個分位點值。
Request Parameters(params_n & max_tokens)	服務在該時間點所有請求的參數N和參數max_tokens。 Params_n：表示該時間點所有請求的參數N的平均值。 Params_max_tokens：表示該時間點所有請求的參數max_tokens的平均值。
GPU KV Cache Usage	服務在該時間點的 GPU KV緩衝平均使用率。
CPU KV Cache Usage	服務在該時間點的 CPU KV緩衝平均使用率。
Prefix Cache Hit Rate	服務在該時間點所有請求的 Prefix緩衝平均命中率。 GPU：表示該時間點所有請求的GPU Prefix緩衝平均命中率。 CPU：表示該時間點所有請求的CPU Prefix緩衝平均命中率。
HTTP Requests by Endpoint	服務在該時間點按要求方法、路徑和響應狀態代碼分組的請求數。
HTTP Request Latency	服務在該時間點不同請求路徑的平均延時。
Speculative Decoding Throughput	服務在該時間點的推測解碼數。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。 Drafts：表示該時間點產生的 Drafts Token數。 Draft Tokens：表示該時間點處理的 Drafts Token數。 Accepted Tokens：表示該時間點被接收的 Drafts Token數。 Emitted Tokens：表示該時間點輸出的 Drafts Token數。
Speculative Decoding Efficiency	服務在該時間點的推測解碼效能。 Draft Acceptance Rate：表示該時間點 Drafts Token 被接收的平均比例。 Efficiency：表示該時間點推測解碼的平均效率。
Token Acceptance by Position	服務在該時間點在不同產生位置的 Drafts Token 接受數。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。

SGLang監控儀錶盤

如果服務有多個執行個體，以下吞吐相關指標是執行個體的總和，延遲相關指標是執行個體的均值。

指標	說明
Requests Num	服務在該時間點的所有請求數。 Running：表示該時間點正在GPU上啟動並執行請求數。 Waiting：表示該時間點等待處理的請求數。
Token Throughput	服務在該時間點所有請求的輸入與產生的Token數。 TPS_IN：表示該時間點輸入的Token數。 TPS_OUT：表示該時間點輸出的Token數。
Time To First Token	服務在該時間點所有請求的首Token延時。首Token延時表示從接收到請求到產生第一個Token的時間。 Avg：表示該時間點所有請求的首Token延遲的平均值。 TPXX：表示該時間點所有請求的首Token延遲的各個分位點值。
Time Per Output Token	服務在該時間點所有請求的每Token延時。每Token延時表示從產生第一個Token後，後續的每個輸出Token所需的平均時間。 Avg：表示該時間點所有請求的每Token延遲的平均值。 TPXX：表示該時間點所有請求的每Token延遲的各個分位點值。
E2E Request Latency	服務在該時間點所有請求的端到端延時。端到端延時表示從接收到請求到返回所有Token的時間。 Avg：表示該時間點所有請求的端到端延遲的平均值。 TPXX：表示該時間點所有請求的端到端延遲的各個分位點值。
Cache Hit Rate	服務在該時間點所有請求的 Prefix緩衝平均命中率。
Used Tokens Num	服務在該時間點使用的KV緩衝Token數。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。
Token Usage	服務在該時間點的KV緩衝Token平均使用率。如果服務包含多個執行個體，則此處的指標為所有執行個體的平均值。

常見問題

Q：監控頁面缺少 LLM 監控儀錶盤

問題概述：使用者通過 EAS 自訂部署方式部署模型後，監控頁面僅顯示通用的 Service 和 GPU 監控，缺失 LLM 監控。

根本原因：服務配置缺少關鍵標籤 ServiceEngineType，該標籤用於顯式聲明後端推理引擎類型。

說明

除 ServiceEngineType標籤外，Model Gallery 部署所帶的其他參數均不影響 LLM 監控。

解決方案：更新服務配置，添加ServiceEngineType的標籤，並根據所採用的推理部署引擎設定其值（僅支援 vllm或sglang）。

Q: 日誌裡頻繁出現/metrics 200的原因是什嗎？

當ServiceEngineType標籤正確配置生效後，EAS後端會定期調用推理部署架構的/metrics介面（約10-15秒一次，包含採集間隔及輪詢所有pod的時間）。該介面以Prometheus格式提供即時架構指標，前端據此渲染LLM監控資料。

Platform For AI：服務監控說明