EAS服務部署成功後,您可以在服務監控頁面查看該服務的相關指標,來瞭解服務的調用和運行情況。本文為您介紹如何查看服務監控資訊及監控指標說明。
前提條件
已部署模型服務,詳情請參見服務部署:控制台。
查看服務監控資訊
進入模型線上服務(EAS)頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導覽列選擇 ,進入模型線上服務(EAS)頁面。
單擊目標服務服務監控列下的,進入服務監控頁簽。
查看服務監控資訊。
切換儀錶盤
服務名:分鐘級監控儀錶盤,包含大部分常用的分鐘級監控指標。預設顯示該儀錶盤。
服務名(fine):秒級監控儀錶盤。
服務名(per):單一實例分鐘級監控儀錶盤。
服務部署好後,預設建立以下3個儀錶盤。
說明其中服務名在控制台顯示為實際EAS服務的名稱。
您可以單擊服務名右側的按鈕,切換三個儀錶盤,來查看各儀錶盤具體的監控指標,關於監控指標的具體說明,請參見監控指標說明。
切換時間範圍
單擊監控資訊地區右側的,來切換儀錶盤展示的時間範圍。
重要目前分鐘級監控指標最多保留1個月,秒級監控指標最多保留1個小時。
監控指標說明
分鐘級監控儀錶盤
您可以在該儀錶盤監控以下指標資訊:
QPS(query per second) 表示服務每秒的請求數。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。不同返回碼的請求數會分開計算。 | Response 表示服務在選定時間範圍內接收的響應總數。不同返回碼的響應數會分開計算。如果服務包含多個執行個體,則此處的指標為所有執行個體之和。 |
CPU 表示服務在該時間點的CPU平均使用量。單位為核心數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。 | CPU Utilization 表示服務在該時間點CPU平均使用率。計算方法為:CPU平均使用量 ÷ 最大可用核心數。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。 |
Memory Utilization 表示服務在該時間點的記憶體平均使用率。計算方法為:記憶體rss ÷ 記憶體total。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。 | GPU 如果您部署的服務使用了GPU,該面板指標表示服務在該時間點的GPU平均使用率。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。 |
GPU Memory 如果您部署的服務使用了GPU,該面板指標表示服務在該時間點的GPU顯存的使用量。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。 | Replicas 表示服務在該時間點的執行個體數。 |
CPU Total 表示服務在該時間點可用的CPU總核心數。計算方法為:單一實例可用CPU核心數 × 服務執行個體數。 | Daily Invoke 表示服務每天的調用量,不同返回碼的調用量會分開計算。 |
RT 表示請求的回應時間。 其中:
| Memory 表示服務在該時間點的記憶體平均使用量。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。其中:
|
Traffic 表示服務接收和發出的流量大小,單位為位元每秒。如果服務包含多個執行個體,則此處的指標為所有執行個體的平均值。 其中:
| TCP Connections 表示TCP串連數。 |
秒級監控儀錶盤
您可以在該儀錶盤監控以下指標:
Instance QPS Fine 統計服務中每個執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。 重要 資料精度精確到5秒層級,只保留最近1個小時的資料。 其中:執行個體使用ip:port來標識。 | Instance RT Fine 統計服務中每個執行個體接收到請求的平均回應時間。 重要 資料精度精確到5秒層級,只保留最近1個小時的資料。 其中:執行個體使用ip:port來標識。 |
單一實例分鐘級監控儀錶盤
您可以在該儀錶盤監控以下指標:
Instance QPS 統計服務中每個執行個體每秒接收的請求數。不同返回碼的請求數會分開計算。其中:執行個體使用ip:port來標識。 | Instance RT 統計服務中每個執行個體的平均回應時間。其中:執行個體使用ip:port來標識。 |
Instance CPU 統計服務中每個執行個體的CPU使用量,單位為核心數。其中:執行個體使用ip:port來標識。 | Instance Memory 統計服務中每個執行個體的記憶體使用量量。其中:執行個體使用ip:port來標識。 |
Instance GPU 統計服務中每個執行個體的GPU使用率。 | Instance GPU Memory 統計服務中每個執行個體的GPU顯存使用量。 |
Instance TCP Connections 表示單一實例TCP串連數。 |
相關文檔
通過監控警示功能對服務指標進行監控,當指標資料超過了配置的警示規則,則發送警示通知。詳情請參見開通服務監控警示。
通過CloudMonitor控制台或API介面查看EAS服務執行個體事件,對事件進行營運、審計或警示設定,詳情請參見查看服務執行個體CloudMonitor事件。
根據商務邏輯設定自訂的監控指標,並根據這些指標進行Auto Scaling,詳情請參見自訂監控及擴縮容指標。