全部產品
Search
文件中心

Platform For AI:服務監控說明

更新時間:Mar 07, 2026

EAS服務部署成功後,您可以在服務監控頁面查看相關指標,瞭解服務的調用和運行情況。本文介紹如何查看服務監控資訊並提供監控指標的詳細說明。

查看服務監控資訊

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 單擊目標服務名稱進入詳情頁面,切換到监控頁簽。

  3. 查看服務監控資訊。

    切換儀錶盤

    儀錶盤分為服務和執行個體維度,切換方式如下:

    image

    • Service:服務維度,預設服務監控儀錶盤名稱格式為Service-<service_name>,其中<service_name>是EAS服務的名稱。

    • Instance:執行個體維度,分單一實例和多執行個體。

      • Single Instance:單一實例監控儀錶盤,支援切換不同執行個體查看。

        image

      • Multiple Instance:多執行個體監控儀錶盤,可自由選擇多個執行個體對比查看。

        image

    切換時間範圍

    單擊監控地區右側的image,切換儀錶盤展示的時間範圍。

    image

    重要

    目前分鐘級監控指標最多保留1個月,秒級監控指標最多保留1個小時。

    重要

    當服務標籤配置了"ServiceEngineType": "vllm""ServiceEngineType" : "sglang"時,才會展示LLM相關的監控項。

監控指標說明

服務監控儀錶盤(分鐘級)

您可以在該儀錶盤監控以下指標:

指標

說明

QPS

服務每秒的請求數。不同返回碼的請求數會分開計算。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。其中,1d offset表示前一天同一時間的QPS資料,可用於分析環比資料。

Response

服務在選定時間範圍內接收的響應總數。不同返回碼的響應數會分開計算。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。

RT

請求的回應時間。

  • Avg:表示該時間點所有請求的平均回應時間。

  • TPXX:表示將該時間點所有請求時間從低到高排序後,前百分之XX請求的最大回應時間。

    例如:TP5表示前百分之五請求的最大回應時間;TP100表示所有請求的最大回應時間。

    如果服務包含多個執行個體,TP100表示所有執行個體的請求最大回應時間;其他TPXX為所有執行個體TPXX的均值,如TP5表示所有執行個體TP5的均值。

Daily Invoke

服務每天的調用量,不同返回碼的調用量會分開計算。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。

更多指標(CPU | Memory | GPU | Network | Resources)

指標

說明

CPU

CPU

服務在該時間點的CPU平均使用量。單位為核心數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

CPU Utilization

服務在該時間點CPU平均使用率。計算方法:CPU平均使用量 ÷ 最大可用核心數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

CPU Total

服務在該時間點可用的CPU總核心數。計算方法為:單一實例可用CPU核心數 × 服務執行個體數。

Memory

Memory

服務在該時間點的記憶體平均使用量。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

  • RSS:表示常駐實體記憶體大小。

  • Cache:表示緩衝大小。

  • Total:表示單個執行個體最大可用的實體記憶體大小。

Memory Utilization

服務在該時間點的記憶體平均使用率。計算方法為:記憶體RSS ÷ 記憶體Total。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

GPU

GPU Utilization

如果部署的服務使用了GPU,該指標表示服務在該時間點的GPU平均使用率。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

GPU Memory

如果部署的服務使用了GPU,該指標表示服務在該時間點的GPU顯存的使用量。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

GPU Total

如果部署的服務使用了GPU,該指標表示服務在該時間點的GPU總量。如果服務包含多個執行個體,則此處的指標為所有執行個體的GPU總和。

GPU Memory Utilization

如果部署的服務使用了GPU,該指標表示服務在該時間點的GPU顯存的使用率。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

Network

Traffic

服務接收和發出的流量大小,單位為位元每秒。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

其中:

  • In:表示服務接收的流量。

  • Out:表示服務發出的流量。

TCP Connections

TCP串連數。

Resources

Replicas

服務在該時間點不同狀態的執行個體數,分為Total、Pending、Available。

Replicas By Resource

服務在該時間點不同資源類型的執行個體數,分為Total、Dedicated(專屬資源)、Public(公用資源)。

執行個體監控儀錶盤(分鐘級)

您可以在該儀錶盤監控以下指標:

指標

說明

QPS

該執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。

RT

該執行個體請求的回應時間。

Response

該執行個體在選定時間範圍內接收的響應總數。不同返回碼的響應數會分開計算。

更多指標(CPU | Memory | GPU | Network | Resources)

指標

說明

CPU

CPU

該執行個體的CPU使用量,單位為核心數。

CPU Utilization

該執行個體在該時間點CPU平均使用率。計算方法為:CPU平均使用量 ÷ 最大可用核心數。

Memory

Memory

該執行個體的記憶體使用量量。

  • RSS:表示常駐實體記憶體大小。

  • Cache:表示緩衝大小。

  • Total:表示單個執行個體最大可用的實體記憶體大小。

Memory Utilization

該執行個體在該時間點的記憶體平均使用率。計算方法為:記憶體RSS ÷ 記憶體Total

GPU

GPU Utilization

該執行個體的GPU使用率。

GPU Memory

該執行個體的GPU顯存使用量。

GPU Memory Utilization

該執行個體的GPU顯存使用率。

Network

Traffic

該執行個體接收和發出的流量大小,單位為位元每秒。

其中:

  • In:表示該執行個體接收的流量。

  • Out:表示該執行個體發出的流量。

TCP Connections

TCP串連數。

多執行個體監控儀錶盤

提供分鐘級、秒級監控指標如下。

  • Minute-Level(分鐘級)

    指標

    說明

    Instance QPS

    每個執行個體每秒的請求數。不同返回碼的請求數會分開計算。

    Instance RT

    每個執行個體的平均回應時間。

    Instance CPU

    每個執行個體的CPU使用量,單位為核心數。

    Instance Memory -- RSS

    每個執行個體常駐實體記憶體大小。

    Instance Memory -- Cache

    每個執行個體緩衝大小。

    Instance GPU

    每個執行個體GPU使用率。

    Instance GPU Memory

    每個執行個體GPU顯存的使用量。

    Instance TCP Connections

    每個執行個體TCP串連數。

  • Second-Level(秒級)

    重要

    資料精度精確到5秒層級,只保留最近1個小時的資料。

    指標

    說明

    Instance QPS Fine

    每個執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。

    Instance RT Fine

    每個執行個體接收到請求的平均回應時間。

GPU監控儀錶盤

支援在服務和執行個體層級監控以下GPU指標。如果是服務等級,則指標是所有執行個體的平均值。

指標

說明

GPU Utilization

服務在該時間點的GPU使用率。

GPU Memory

服務在該時間點的GPU顯存使用量與顯存總量。

  • Used:表示該時間點的GPU顯存使用量。

  • Total:表示該時間點的GPU顯存總量。

Memory Copy Utilization

服務在該時間點的GPU顯存複製利用率。

GPU Memory Utilization

服務在該時間點的GPU顯存使用率,計算方法為:顯存使用量 ÷ 顯存總量。

PCIe

服務在該時間點的通過DCGM測量的PCIe(Peripheral Component Interconnect Express,高速串列電腦擴充匯流排標準)速率。

  • PCIe Transmit:表示該時間點的PCIe傳輸速率。

  • PCIe Receive:表示該時間點的PCIe接收速率。

Memory Bandwidth

服務在該時間點的GPU顯存頻寬指標。

SM Utilization and Occupancy

服務在該時間點的SM(Streaming Multiprocessor,流式多處理器)相關指標,SM是GPU的核心組成部分,負責執行和調度並行計算任務。

  • SM Utilization:表示該時間點的SM利用率。

  • SM Occupancy:表示該時間點的SM上駐留的Warp線程數比例。

Graphics Engine Utilization

服務在該時間點的GPU圖形引擎利用率。

Pipe Active Ratio

服務在該時間點的GPU運算管道的活躍率。

  • Pipe Fp32 Active Ratio:表示該時間點的FP32管道活躍率。

  • Pipe Fp16 Active Ratio:表示該時間點的Fp16管道活躍率。

  • Pipe Tensor Active Ratio:表示該時間點的Tensor管道活躍率。

Tflops Usage

服務在該時間點的GPU運算管道的Tflops(Tera floating-point operations per second,每秒萬億次浮點運算)運算量。

  • FP32 Tflops Used:表示該時間點的FP32管道Tflops運算量。

  • FP16 Tflops Used:表示該時間點的Fp16管道Tflops運算量。

  • Tensor Tflops Used:表示該時間點的Tensor管道Tflops運算量。

DRAM Active Ratio

服務在該時間點的GPU裝置顯存介面發送或接收資料的活躍率。

SM Clock

服務在該時間點的SM時鐘頻率。

GPU Temperature

服務在該時間點的GPU溫度相關指標。

  • GPU Temperature:表示該時間點的GPU溫度。

  • GPU Slowdown Temperature:表示該時間點的GPU降頻溫度閾值;當GPU溫度達到該值時,GPU將自動降低其工作頻率,以避免GPU裝置過熱。

  • GPU Shutdown Temperature:表示該時間點的GPU關機溫度閾值;當GPU溫度達到該值時,系統將強制關停GPU裝置以防止GPU因過熱而導致硬體損壞或引發更嚴重的系統故障。

Power Usage

服務在該時間點的GPU功耗。

以下是GPU健康狀態與異常資訊指標:

指標

說明

GPU Health Count

服務在該時間點的健康GPU卡數。

GPU Lost Card Num

服務在該時間點的GPU掉卡數。

ECC Error Count

服務在該時間點的ECC錯誤數。ECC(Error Correction Code,錯誤校正碼)用於檢測和糾正GPU顯存資料轉送或預存程序中的錯誤。

  • Volatile SBE ECC Error:表示服務在該時間點的單位元易失性ECC錯誤數。

  • Volatile DBE ECC Error:表示服務在該時間點的雙位元易失性ECC錯誤數。

  • Aggregate SBE ECC Error:表示服務在該時間點的單位元持久性ECC錯誤數。

  • Aggregate DBE ECC Error:表示服務在該時間點的雙位元持久性ECC錯誤數。

  • Uncorrectable ECC Error:表示服務在該時間點的無法糾正的ECC錯誤數。

NVSwitch Error Count

服務在該時間點的NVSwitch錯誤數。NVSwitch 提供高頻寬和低延遲的通訊通道,負責多GPU之間的高速通訊。

  • NVSwitch Fatal Error:表示服務在該時間點的致命NVSwitch錯誤數。

  • NVSwitch Non-Fatal Error:表示服務在該時間點的非致命NVSwitch錯誤數。

Xid Error Count

服務在該時間點的Xid錯誤數。Xid錯誤是GPU驅動程式報告的錯誤碼,用於指示GPU在運行過程中遇到的問題,這些錯誤通常通過系統日誌(如Linux的dmesg或Windows的事件檢視器)記錄,並以Xid代碼的形式表示。

  • Xid Error:表示服務在該時間點的非致命Xid錯誤數。

  • Fatal Xid Error:表示服務在該時間點的致命Xid錯誤數。

Kernel Error Count

服務在該時間點的非Xid錯誤數。非Xid錯誤(Non-Xid Errors)指的是除了Xid錯誤之外,由核心日誌中報告的其他類型錯誤。

Driver Hang

服務在該時間點的GPU驅動掛起次數。

Remap Status

服務在該時間點GPU在嘗試重新對應顯存行時的狀態。

VLLM監控儀錶盤

如果服務有多個執行個體,以下吞吐相關指標是執行個體的總和,延遲相關指標是執行個體的均值。

指標

說明

Requests Status

服務在該時間點的所有請求數。

  • Running:表示該時間點正在GPU上啟動並執行請求數。

  • Waiting:表示該時間點等待處理的請求數。

  • Swapped:表示該時間點被交換至CPU上的請求數。

Token Throughput

服務在該時間點所有請求的輸入與產生的Token數。

  • TPS_IN:表示該時間點輸入的Token數。

  • TPS_OUT:表示該時間點輸出的Token數。

Request Completion Status

服務在該時間點所有請求的完成狀態統計。

  • preemptions: 請求被搶佔。

  • stop: 請求因自然終止而成功完成(模型輸出了停止標記,如<EOS>)。

  • length: 請求已達到最大輸出token長度。

  • abort: 請求被強制終止。

Time To First Token

服務在該時間點所有請求的首Token延時(從接收到請求到產生第一個Token的時間)。

  • Avg:表示該時間點所有請求的首Token延遲的平均值。

  • TPXX:表示該時間點所有請求的首Token延遲的各個分位點值。

Time Per Output Token

服務在該時間點所有請求的每Token延時(產生第一個Token之後的每個輸出Token所需的平均時間)。

  • Avg:表示該時間點所有請求的每Token延遲的平均值。

  • TPXX:表示該時間點所有請求的每Token延遲的各個分位點值。

E2E Request Latency

服務在該時間點所有請求的端到端延時(從接收到請求到返回所有Token的時間)。

  • Avg:表示該時間點所有請求的端到端延遲的平均值。

  • TPXX:表示該時間點所有請求的端到端延遲的各個分位點值。

Queue Time

服務在該時間點所有請求的排隊等待延時(請求排隊等待被引擎處理的時間)。

  • Avg:表示該時間點所有請求的排隊等待延時的平均值。

  • TPXX:表示該時間點所有請求的排隊等待延時的各個分位點值。

Inference Time

服務在該時間點所有請求的推理延時(請求被引擎處理的時間)。

  • Avg:表示該時間點所有請求的推理延時的平均值。

  • TPXX:表示該時間點所有請求的推理延時的各個分位點值。

Prefill Time

服務在該時間點所有請求在 Prefill 階段的延時(引擎處理請求輸入Token的時間)。

  • Avg:表示該時間點所有請求的Prefill延時的平均值。

  • TPXX:表示該時間點所有請求的Prefill延時的各個分位點值。

Decode Time

服務在該時間點所有請求在 Decode 階段的延時(引擎產生輸出Token的時間)。

  • Avg:表示該時間點所有請求的Decode延時的平均值。

  • TPXX:表示該時間點所有請求的Decode延時的各個分位點值。

Input Token Length

服務在該時間點處理的輸入token數。

  • Avg:表示該時間點所有請求輸入token長度的平均值。

  • TPXX:表示該時間點所有請求輸入token長度的各個分位點值。

Output Token Length

服務在該時間點產生的輸出token數。

  • Avg:表示該時間點所有請求輸出token長度的平均值。

  • TPXX:表示該時間點所有請求輸出token長度的各個分位點值。

Request Parameters(params_n & max_tokens)

服務在該時間點所有請求的參數N和參數max_tokens

  • Params_n:表示該時間點所有請求的參數N的平均值。

  • Params_max_tokens:表示該時間點所有請求的參數max_tokens的平均值。

GPU KV Cache Usage

服務在該時間點的 GPU KV緩衝平均使用率。

CPU KV Cache Usage

服務在該時間點的 CPU KV緩衝平均使用率。

Prefix Cache Hit Rate

服務在該時間點所有請求的 Prefix緩衝平均命中率。

  • GPU:表示該時間點所有請求的GPU Prefix緩衝平均命中率。

  • CPU:表示該時間點所有請求的CPU Prefix緩衝平均命中率。

HTTP Requests by Endpoint

服務在該時間點按要求方法、路徑和響應狀態代碼分組的請求數。

HTTP Request Latency

服務在該時間點不同請求路徑的平均延時。

Speculative Decoding Throughput

服務在該時間點的推測解碼數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

  • Drafts:表示該時間點產生的 Drafts Token數。

  • Draft Tokens:表示該時間點處理的 Drafts Token數。

  • Accepted Tokens:表示該時間點被接收的 Drafts Token數。

  • Emitted Tokens:表示該時間點輸出的 Drafts Token數。

Speculative Decoding Efficiency

服務在該時間點的推測解碼效能。

  • Draft Acceptance Rate:表示該時間點 Drafts Token 被接收的平均比例。

  • Efficiency:表示該時間點推測解碼的平均效率。

Token Acceptance by Position

服務在該時間點在不同產生位置的 Drafts Token 接受數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

SGLang監控儀錶盤

如果服務有多個執行個體,以下吞吐相關指標是執行個體的總和,延遲相關指標是執行個體的均值。

指標

說明

Requests Num

服務在該時間點的所有請求數。

  • Running:表示該時間點正在GPU上啟動並執行請求數。

  • Waiting:表示該時間點等待處理的請求數。

Token Throughput

服務在該時間點所有請求的輸入與產生的Token數。

  • TPS_IN:表示該時間點輸入的Token數。

  • TPS_OUT:表示該時間點輸出的Token數。

Time To First Token

服務在該時間點所有請求的首Token延時。首Token延時表示從接收到請求到產生第一個Token的時間。

  • Avg:表示該時間點所有請求的首Token延遲的平均值。

  • TPXX:表示該時間點所有請求的首Token延遲的各個分位點值。

Time Per Output Token

服務在該時間點所有請求的每Token延時。每Token延時表示從產生第一個Token後,後續的每個輸出Token所需的平均時間。

  • Avg:表示該時間點所有請求的每Token延遲的平均值。

  • TPXX:表示該時間點所有請求的每Token延遲的各個分位點值。

E2E Request Latency

服務在該時間點所有請求的端到端延時。端到端延時表示從接收到請求到返回所有Token的時間。

  • Avg:表示該時間點所有請求的端到端延遲的平均值。

  • TPXX:表示該時間點所有請求的端到端延遲的各個分位點值。

Cache Hit Rate

服務在該時間點所有請求的 Prefix緩衝平均命中率。

Used Tokens Num

服務在該時間點使用的KV緩衝Token數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

Token Usage

服務在該時間點的KV緩衝Token平均使用率。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。

常見問題

Q:監控頁面缺少 LLM 監控儀錶盤

問題概述:使用者通過 EAS 自訂部署方式部署模型後,監控頁面僅顯示通用的 Service 和 GPU 監控,缺失 LLM 監控。

根本原因:服務配置缺少關鍵標籤 ServiceEngineType,該標籤用於顯式聲明後端推理引擎類型。

image

說明

ServiceEngineType標籤外,Model Gallery 部署所帶的其他參數均不影響 LLM 監控。

解決方案:更新服務配置,添加ServiceEngineType的標籤,並根據所採用的推理部署引擎設定其值(僅支援 vllmsglang)。

Q: 日誌裡頻繁出現/metrics 200的原因是什嗎?

ServiceEngineType標籤正確配置生效後,EAS後端會定期調用推理部署架構的/metrics介面(約10-15秒一次,包含採集間隔及輪詢所有pod的時間)。該介面以Prometheus格式提供即時架構指標,前端據此渲染LLM監控資料。

相關文檔