全部產品
Search
文件中心

Platform For AI:查看EASCloudMonitor事件

更新時間:Jun 25, 2025

EAS在CloudMonitor上定義了兩種類型事件:服務事件(Service)和服務執行個體事件(ServiceInstance)。EAS事件控制器會即時推送EAS服務事件和服務執行個體事件到CloudMonitor。您可以通過CloudMonitor控制台或API介面查看事件,對事件進行營運、審計或警示設定。

查看EAS事件

通過控制台

您可以在CloudMonitor控制台查看EAS事件,具體操作步驟如下。

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇事件中心 > 系統事件

  3. 事件監控頁簽,產品選擇機器學習,單擊搜尋,查看EAS系統事件。

    image

  4. 單擊目標事件操作列下的詳情,查看事件詳情。樣本如下:image

    參數說明如下。

    參數

    說明

    Product

    產品code。例如:機器學習為learn。

    Name

    事件名。關於機器學習支援查看的事件名,請參見支援查看的EAS事件中的事件名列。

    Level

    事件層級,可能值:

    • INFO:資訊。

    • WARN:警告。

    • CRITICAL:嚴重。

    Status

    事件狀態。關於機器學習的事件狀態,請參見支援查看的EAS事件中的事件狀態列。

    RegionId

    服務所在的地區ID。例如:華東2(上海)為cn-shanghai。

    ResourceId

    資源ID,詳情請參見權限原則說明

    InstanceName

    服務名稱或服務執行個體名稱。

    Time

    事件發生時間,格式為UNIX毫秒時間戳記。

    GroupId

    EAS對應的CloudMonitor應用分組,預設沒有分組。

    Content

    表示事件的核心內容。

    • 服務等級事件:字串。

    • 服務執行個體層級的事件:JSON格式,參見Content參數說明

    Content參數說明

    參數

    說明

    serviceName

    執行個體對應的服務名。

    serviceId

    執行個體對應的服務ID。

    serviceGroup

    執行個體對應的服務群組。

    resourceType

    執行個體所在的資源群組類型,可能值:

    • PublicResource:公用資源群組。

    • DedicatedResource:專屬資源群組。

    instanceType

    執行個體規格。

    cpu

    執行個體使用的CPU個數。

    memory

    執行個體的記憶體使用量量,單位為MB。

    gpu

    執行個體使用的GPU個數。

    gpuMemory

    執行個體GPU記憶體使用量量,單位為GB。

    nvidiaName

    執行個體使用的顯卡名稱。

    role

    執行個體所屬的服務角色,可能值:

    • Queue:佇列服務。

    • DataLoader:離線服務。

    • Standard:普通服務。

    isBurst

    是否屬於Burstable管理的執行個體,可能值:

    • false:不屬於Burstable管理的執行個體,即執行個體所屬資源群組未開啟自動調整功能。

    • true:屬於Burstable管理的執行個體,即執行個體所屬資源群組開啟了自動調整功能。

    isSpot

    是否屬於搶佔式資源執行個體,可能值:

    • false:不屬於搶佔式資源執行個體。

    • true:屬於搶佔式執行個體。

    callerUid

    建立EAS服務的使用者UID。

    timestamp

    容器的上次啟動時間。

    restartCount

    執行個體重啟次數。

    exitCode

    執行個體的退出狀態代碼,預設為空白。

    status

    執行個體的狀態,可能值請參見支援查看的EAS事件事件狀態列。

    reason

    事件原因。

    message

    事件資訊。

通過API介面

您也可以通過API介面查看EAS事件,詳情請參見DescribeSystemEventAttribute

建立並啟用事件警示規則

通過控制台

  1. 建立系統事件警示規則。其中關鍵參數配置如下。

    • 產品類型:選擇機器學習

    • 事件類型:選擇ServiceInstanceService

    • 事件等級:根據業務需要選擇單個或多個事件等級。

    • 事件名稱:選擇需要監控的事件名稱,即附錄中的事件名稱(中文)列。支援選擇單個或多個事件名稱。

    • 關鍵詞過濾:設定關鍵詞匹配事件資訊中content的內容過濾訂閱的事件。

    image

  2. 使用系統事件警示回調

通過API介面

您也可以通過API介面建立並啟用事件警示規則,具體操作,請參見建立事件警示規則啟用事件警示規則

常見問題

服務執行個體是指推理服務還是Pod執行個體?

事件類型為Service代表了服務等級的事件。事件類型為ServiceInstance代表格服務執行個體層級的事件,此處的服務執行個體就是指Pod執行個體。

附錄:支援查看的EAS事件

EAS定義了服務等級事件及服務執行個體層級事件如下。

事件類型

事件名

事件名稱(中文)

事件層級

事件狀態

ServiceInstance

EAS:ServiceInstance:Running

服務執行個體運行

INFO

Running

EAS:ServiceInstance:Pending

服務執行個體等待調度

INFO

Pending

EAS:ServiceInstance:Completed

服務執行個體運行結束

INFO

Completed

EAS:ServiceInstance:Terminating

服務執行個體開始刪除

INFO

Terminating

EAS:ServiceInstance:Terminated

服務執行個體刪除成功

INFO

Terminated

EAS:ServiceInstance:Unknown

服務執行個體未知異常

WARN

Unknown

EAS:ServiceInstance:Evicted

服務執行個體驅逐

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

服務執行個體拉取鏡像出錯

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

服務執行個體拉取鏡像失敗

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

服務執行個體崩潰

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

服務執行個體內部錯誤

CRITICAL

Error

EAS:ServiceInstance:Failed

服務執行個體運行失敗

CRITICAL

Failed

EAS:ServiceInstance:SpotToBeReleased

服務Spot執行個體即將被釋放

WARN

SpotToBeReleased

Service

EAS:Service:ReplicasChanged

服務執行個體數量改變

INFO

ReplicasChanged

EAS:Service:StatusChanged

服務狀態改變

INFO

StatusChanged

EAS:Service:Unavailable

服務不可用

CRITICAL

Unavailable

EAS:Service:UpdateFailed

服務更新失敗

CRITICAL

UpdateFailed