全部產品
Search
文件中心

Platform For AI:服務監控說明

更新時間:Jul 13, 2024

EAS服務部署成功後,您可以在服務監控頁面查看該服務的相關指標,來瞭解服務的調用和運行情況。本文為您介紹如何查看服務監控資訊及監控指標說明。

前提條件

已部署模型服務,詳情請參見服務部署:控制台

查看服務監控資訊

  1. 進入模型線上服務(EAS)頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。

    3. 在工作空間頁面的左側導覽列選擇模型部署 > 模型線上服務(EAS),進入模型線上服務(EAS)頁面。

  2. 單擊目標服務服務監控列下的image.png,進入服務監控頁簽。

  3. 查看服務監控資訊。

    切換儀錶盤

      服務部署好後,預設建立以下3個儀錶盤。

      • 服務名:分鐘級監控儀錶盤,包含大部分常用的分鐘級監控指標。預設顯示該儀錶盤。

      • 服務名(fine):秒級監控儀錶盤。

      • 服務名(per):單一實例分鐘級監控儀錶盤。

      說明

      其中服務名在控制台顯示為實際EAS服務的名稱。

      您可以單擊服務名右側的按鈕按鈕,切換三個儀錶盤,來查看各儀錶盤具體的監控指標,關於監控指標的具體說明,請參見監控指標說明22800e34cbc151919b64fb72b94db403.png

    切換時間範圍

    單擊監控資訊地區右側的按鈕,來切換儀錶盤展示的時間範圍。image.png

    重要

    目前分鐘級監控指標最多保留1個月,秒級監控指標最多保留1個小時。

監控指標說明

分鐘級監控儀錶盤

您可以在該儀錶盤監控以下指標資訊:

QPS(query per second)

表示服務每秒的請求數。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。不同返回碼的請求數會分開計算。image

Response

表示服務在選定時間範圍內接收的響應總數。不同返回碼的響應數會分開計算。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。image

CPU

表示服務在該時間點的CPU平均使用量。單位為核心數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。CPU

CPU Utilization

表示服務在該時間點CPU平均使用率。計算方法為:CPU平均使用量 ÷ 最大可用核心數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。CPU Utilization

Memory Utilization

表示服務在該時間點的記憶體平均使用率。計算方法為:記憶體rss ÷ 記憶體total。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。Memory Utilization

GPU

如果您部署的服務使用了GPU,該面板指標表示服務在該時間點的GPU平均使用率。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。GPU

GPU Memory

如果您部署的服務使用了GPU,該面板指標表示服務在該時間點的GPU顯存的使用量。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。GPU Memory

Replicas

表示服務在該時間點的執行個體數。Replicas

CPU Total

表示服務在該時間點可用的CPU總核心數。計算方法為:單一實例可用CPU核心數 × 服務執行個體數。CPU Total

Daily Invoke

表示服務每天的調用量,不同返回碼的調用量會分開計算。Daily Invoke

RT

表示請求的回應時間。image

其中:

  • avg:表示該時間點所有請求的平均回應時間。

  • tpXX:表示將該時間點所有請求時間從低到高排序後,前百分之XX請求的最大回應時間。

    例如:tp5表示前百分之五請求的最大回應時間;tp100表示所有請求的最大回應時間。

    如果服務包含多個執行個體,tp100表示所有執行個體的請求最大回應時間;tp5表示所有執行個體前百分之五請求的最大回應時間的平均值。

Memory

表示服務在該時間點的記憶體平均使用量。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。Memory其中:

  • rss:表示常駐實體記憶體大小。

  • cache:表示緩衝大小。

  • total:表示單個執行個體最大可用的實體記憶體大小。

Traffic

表示服務接收和發出的流量大小,單位為位元每秒。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。image

其中:

  • in:表示服務接收的流量。

  • out:表示服務發出的流量。

TCP Connections

表示TCP串連數。

image.png

秒級監控儀錶盤

您可以在該儀錶盤監控以下指標:

Instance QPS Fine

統計服務中每個執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。

重要

資料精度精確到5秒層級,只保留最近1個小時的資料。

Instance QPS Fine其中:執行個體使用ip:port來標識。

Instance RT Fine

統計服務中每個執行個體接收到請求的平均回應時間。

重要

資料精度精確到5秒層級,只保留最近1個小時的資料。

Instance RT Fine其中:執行個體使用ip:port來標識。

單一實例分鐘級監控儀錶盤

您可以在該儀錶盤監控以下指標:

Instance QPS

統計服務中每個執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。Instance QPS其中:執行個體使用ip:port來標識。

Instance RT

統計服務中每個執行個體的平均回應時間。Instance RT其中:執行個體使用ip:port來標識。

Instance CPU

統計服務中每個執行個體的CPU使用量,單位為核心數。Instance CPU其中:執行個體使用ip:port來標識。

Instance Memory

統計服務中每個執行個體的記憶體使用量量。Instance Memory其中:執行個體使用ip:port來標識。

Instance GPU

統計服務中每個執行個體的GPU使用率。Instance GPU

Instance GPU Memory

統計服務中每個執行個體的GPU顯存使用量。Instance GPU Memory

Instance TCP Connections

表示單一實例TCP串連數。image.png

相關文檔

  • 通過監控警示功能對服務指標進行監控,當指標資料超過了配置的警示規則,則發送警示通知。詳情請參見開通服務監控警示

  • 通過CloudMonitor控制台或API介面查看EAS服務執行個體事件,對事件進行營運、審計或警示設定,詳情請參見查看服務執行個體CloudMonitor事件

  • 根據商務邏輯設定自訂的監控指標,並根據這些指標進行Auto Scaling,詳情請參見自訂監控及擴縮容指標