全部产品
Search
文档中心

人工智能平台 PAI:查看服务实例云监控事件

更新时间:Nov 27, 2023

为方便您获取EAS服务实例级别的事件,EAS在云监控上定义了服务实例事件(ServiceInstance)类型。EAS事件控制器会实时推送EAS服务实例事件到云监控。您可以通过云监控控制台或API接口查看EAS服务实例事件,对事件进行运维、审计或报警设置。本文为您介绍如何查看服务实例事件、创建并启用报警规则。

查看EAS服务实例事件

通过控制台

您可以在云监控控制台查看EAS服务实例事件,具体操作步骤如下。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择事件中心 > 系统事件

  3. 事件监控页签,产品选择机器学习,单击搜索,查看EAS系统事件。image

  4. 单击目标事件操作列下的详情,查看事件详情。

    事件详情示例如下。image

    参数说明如下。

    参数

    说明

    Product

    产品code。例如:机器学习为learn。

    Name

    事件名。关于机器学习支持查看的事件名,请参见支持查看的EAS服务实例事件中的事件名列。

    Level

    事件级别,可能值:

    • INFO:信息。

    • WARN:警告。

    • CRITICAL:严重。

    Status

    事件状态。关于机器学习的事件状态,请参见支持查看的EAS服务实例事件中的事件状态列。

    RegionId

    服务所在的地域ID。例如:华东2(上海)为cn-shanghai。

    ResourceId

    资源ID,详情请参见权限策略说明

    InstanceName

    服务实例名称。

    Time

    事件发生时间,格式为UNIX毫秒时间戳。

    GroupId

    EAS对应的云监控应用分组,默认没有分组。

    Content

    表示事件的核心内容,JSON格式。具体参数说明,请参见Content参数说明

    Content参数说明

    参数

    说明

    serviceName

    实例对应的服务名。

    serviceId

    实例对应的服务ID。

    serviceGroup

    实例对应的服务群组。

    resourceType

    实例所在的资源组类型,可能值:

    • PublicResource:公共资源组。

    • DedicatedResource:专属资源组。

    instanceType

    实例规格。

    cpu

    实例使用的CPU个数。

    memory

    实例的内存使用量,单位为MB。

    gpu

    实例使用的GPU个数。

    gpuMemory

    实例GPU内存使用量,单位为GB。

    nvidiaName

    实例使用的显卡名称。

    role

    实例所属的服务角色,可能值:

    • Queue:队列服务。

    • DataLoader:离线服务。

    • Standard:普通服务。

    isBurst

    是否属于Burstable管理的实例,可能值:

    • false:不属于Burstable管理的实例,即实例所属资源组未开启自动伸缩功能。

    • true:属于Burstable管理的实例,即即实例所属资源组开启了自动伸缩功能。

    isSpot

    是否属于抢占式资源实例,可能值:

    • false:不属于抢占式资源实例。

    • true:属于抢占式实例。

    callerUid

    创建EAS服务的用户UID。

    timestamp

    事件发生的UTC时间。

    restartCount

    实例重启次数。

    exitCode

    实例的退出状态码,默认为空。

    status

    实例的状态,可能值请参见支持查看的EAS服务实例事件事件状态列。

    reason

    事件原因。

    message

    事件信息。

通过API接口

您也可以通过API接口查看EAS服务实例事件,详情请参见DescribeSystemEventAttribute

创建并启用事件报警规则

通过控制台

  1. 创建系统事件报警规则,具体操作,请参见创建系统事件报警规则。其中关键参数配置如下。

    • 产品类型:选择机器学习

    • 事件类型:选择ServiceInstance。当前只支持ServiceInstance,即服务实例事件。

    • 事件等级:根据业务需要选择单个或多个事件等级。

    • 事件名称:选择需要监控的事件名称,即附录中的事件名称(中文)列。支持选择单个或多个事件名称。

    • 关键词匹配:对查询的事件内容设置关键词匹配。

    image

  2. 启用系统事件报警规则,具体操作,请参见启用系统事件报警规则

通过API接口

您也可以通过API接口创建并启用事件报警规则,具体操作,请参见创建事件报警规则启用事件报警规则

附录:支持查看的EAS服务实例事件

EAS根据服务实例的生命周期定义了如下服务实例事件

事件类型

事件名

事件名称(中文)

事件级别

事件状态

ServiceInstance

EAS:ServiceInstance:Running

服务实例运行

INFO

Running

EAS:ServiceInstance:Pending

服务实例等待调度

INFO

Pending

EAS:ServiceInstance:Completed

服务实例运行结束

INFO

Completed

EAS:ServiceInstance:Terminating

服务实例开始删除

INFO

Terminating

EAS:ServiceInstance:Terminated

服务实例删除成功

INFO

Terminated

EAS:ServiceInstance:Unknown

服务实例未知异常

WARN

Unknown

EAS:ServiceInstance:Evicted

服务实例驱逐

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

服务实例拉取镜像出错

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

服务实例拉取镜像失败

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

服务实例崩溃

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

服务实例内部错误

CRITICAL

Error

EAS:ServiceInstance:Failed

服务实例运行失败

CRITICAL

Failed