全部產品
Search
文件中心

Platform For AI:查看服務執行個體CloudMonitor事件

更新時間:Jul 13, 2024

為方便您擷取EAS服務執行個體層級的事件,EAS在CloudMonitor上定義了服務執行個體事件(ServiceInstance)類型。EAS事件控制器會即時推送EAS服務執行個體事件到CloudMonitor。您可以通過CloudMonitor控制台或API介面查看EAS服務執行個體事件,對事件進行營運、審計或警示設定。本文為您介紹如何查看服務執行個體事件、建立並啟用警示規則。

查看EAS服務執行個體事件

通過控制台

您可以在CloudMonitor控制台查看EAS服務執行個體事件,具體操作步驟如下。

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇事件中心 > 系統事件

  3. 事件監控頁簽,產品選擇機器學習,單擊搜尋,查看EAS系統事件。image

  4. 單擊目標事件操作列下的詳情,查看事件詳情。

    事件詳情樣本如下。image

    參數說明如下。

    參數

    說明

    Product

    產品code。例如:機器學習為learn。

    Name

    事件名。關於機器學習支援查看的事件名,請參見支援查看的EAS服務執行個體事件中的事件名列。

    Level

    事件層級,可能值:

    • INFO:資訊。

    • WARN:警告。

    • CRITICAL:嚴重。

    Status

    事件狀態。關於機器學習的事件狀態,請參見支援查看的EAS服務執行個體事件中的事件狀態列。

    RegionId

    服務所在的地區ID。例如:華東2(上海)為cn-shanghai。

    ResourceId

    資源ID,詳情請參見權限原則說明

    InstanceName

    服務執行個體名稱。

    Time

    事件發生時間,格式為UNIX毫秒時間戳記。

    GroupId

    EAS對應的CloudMonitor應用分組,預設沒有分組。

    Content

    表示事件的核心內容,JSON格式。具體參數說明,請參見Content參數說明

    Content參數說明

    參數

    說明

    serviceName

    執行個體對應的服務名。

    serviceId

    執行個體對應的服務ID。

    serviceGroup

    執行個體對應的服務群組。

    resourceType

    執行個體所在的資源群組類型,可能值:

    • PublicResource:公用資源群組。

    • DedicatedResource:專屬資源群組。

    instanceType

    執行個體規格。

    cpu

    執行個體使用的CPU個數。

    memory

    執行個體的記憶體使用量量,單位為MB。

    gpu

    執行個體使用的GPU個數。

    gpuMemory

    執行個體GPU記憶體使用量量,單位為GB。

    nvidiaName

    執行個體使用的顯卡名稱。

    role

    執行個體所屬的服務角色,可能值:

    • Queue:佇列服務。

    • DataLoader:離線服務。

    • Standard:普通服務。

    isBurst

    是否屬於Burstable管理的執行個體,可能值:

    • false:不屬於Burstable管理的執行個體,即執行個體所屬資源群組未開啟自動調整功能。

    • true:屬於Burstable管理的執行個體,即即執行個體所屬資源群組開啟了自動調整功能。

    isSpot

    是否屬於搶佔式資源執行個體,可能值:

    • false:不屬於搶佔式資源執行個體。

    • true:屬於搶佔式執行個體。

    callerUid

    建立EAS服務的使用者UID。

    timestamp

    事件發生的UTC時間。

    restartCount

    執行個體重啟次數。

    exitCode

    執行個體的退出狀態代碼,預設為空白。

    status

    執行個體的狀態,可能值請參見支援查看的EAS服務執行個體事件事件狀態列。

    reason

    事件原因。

    message

    事件資訊。

通過API介面

您也可以通過API介面查看EAS服務執行個體事件,詳情請參見DescribeSystemEventAttribute

建立並啟用事件警示規則

通過控制台

  1. 建立系統事件警示規則,具體操作,請參見建立系統事件警示規則。其中關鍵參數配置如下。

    • 產品類型:選擇機器學習

    • 事件類型:選擇ServiceInstance。當前只支援ServiceInstance,即服務執行個體事件。

    • 事件等級:根據業務需要選擇單個或多個事件等級。

    • 事件名稱:選擇需要監控的事件名稱,即附錄中的事件名稱(中文)列。支援選擇單個或多個事件名稱。

    • 關鍵詞匹配:對查詢的事件內容設定關鍵詞匹配。

    image

  2. 啟用系統事件警示規則,具體操作,請參見啟用系統事件警示規則

通過API介面

您也可以通過API介面建立並啟用事件警示規則,具體操作,請參見建立事件警示規則啟用事件警示規則

附錄:支援查看的EAS服務執行個體事件

EAS根據服務執行個體的生命週期定義了如下服務執行個體事件

事件類型

事件名

事件名稱(中文)

事件層級

事件狀態

ServiceInstance

EAS:ServiceInstance:Running

服務執行個體運行

INFO

Running

EAS:ServiceInstance:Pending

服務執行個體等待調度

INFO

Pending

EAS:ServiceInstance:Completed

服務執行個體運行結束

INFO

Completed

EAS:ServiceInstance:Terminating

服務執行個體開始刪除

INFO

Terminating

EAS:ServiceInstance:Terminated

服務執行個體刪除成功

INFO

Terminated

EAS:ServiceInstance:Unknown

服務執行個體未知異常

WARN

Unknown

EAS:ServiceInstance:Evicted

服務執行個體驅逐

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

服務執行個體拉取鏡像出錯

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

服務執行個體拉取鏡像失敗

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

服務執行個體崩潰

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

服務執行個體內部錯誤

CRITICAL

Error

EAS:ServiceInstance:Failed

服務執行個體運行失敗

CRITICAL

Failed