全部产品
Search
文档中心

人工智能平台 PAI:开通服务监控报警

更新时间:Dec 03, 2024

通过服务监控报警功能,您可以监控服务运行情况。如果服务运行情况超过了配置的报警规则(条件),则发送报警通知。

背景信息

EAS支持对服务的以下项目进行监控报警。

监控项目

描述

CPU消耗

服务当前消耗的CPU核数。

GPU利用率

服务当前GPU使用量占部署GPU总量的比重。

GPU显存

服务当前GPU显存使用量。

内存消耗

服务当前内存消耗,单位MB。

每秒总调用次数

服务每秒总调用次数。

状态码2xx每秒响应

状态码为2xx的每秒响应。

状态码2xx响应占比

状态码为2xx的响应占比。

状态码4xx每秒响应

状态码为4xx的每秒响应。

状态码4xx响应占比

状态码为4xx的响应占比。

状态码5xx每秒响应

状态码为5xx的每秒响应。

状态码5xx响应占比

状态码为5xx的响应占比。

TP5响应时间

前5%请求最大响应时间。

TP80响应时间

前80%请求最大响应时间。

TP90响应时间

前90%请求最大响应时间。

TP95响应时间

前95%请求最大响应时间。

TP99响应时间

前99%请求最大响应时间。

TP100响应时间

前100%请求最大响应时间。

入流量

每秒进入服务的数据量,单位KB。

出流量

每秒流出服务的数据量,单位KB。

步骤一:配置报警联系人

  1. 创建报警联系人。

    1. 登录云监控控制台

    2. 在左侧导航栏,选择报警服务 > 报警联系人

    3. 报警联系人页签,单击创建联系人

    4. 设置报警联系人面板,输入报警联系人姓名、邮箱和钉钉机器人。

    5. 选择报警通知信息语言,并滑动下方的滑块。

      系统支持如下三种方式:

      • 自动:根据当前账号注册时的语言自动适配报警通知信息的语言,即中国站为中文,国际站和日本站为英文。

      • 中文

      • English

    6. 单击确认

  2. 创建报警联系组

    1. 在左侧导航栏,选择报警服务 > 报警联系人

    2. 单击报警联系组页签。

    3. 报警联系组页签,单击新建联系人组

    4. 新建联系人组面板,填写报警联系人组的组名,并选择已有报警联系人。

    5. 单击确认

步骤二:配置报警规则

  1. 在云监控控制台的左侧导航栏,单击云资源监控 > 云产品监控

  2. 云产品监控页面的搜索框中,搜索PAI-EAS在线预测服务,并单击PAI-EAS在线预测服务

  3. PAI-EAS在线预测服务页面,选择服务所在的地域,单击服务操作列下的监控图表

    监控图表

  4. 单击创建报警规则

  5. 创建报警规则面板,配置以下参数,并单击确认

    参数

    描述

    产品

    云监控管理的产品名称,选择PAI-EAS在线预测服务

    资源范围

    报警规则的作用范围,分为全部资源和实例:

    • 全部资源EAS的任何服务满足报警规则,都会发送报警通知。

    • 实例:仅选中的单个或多个服务实例满足报警规则时,才发送报警通知。

    规则描述

    报警规则的主体,当监控数据满足指定条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则

    2. 添加规则描述面板,设置规则名称、指标类型、监控指标、阈值、报警级别和报警方式等。

    3. 单击确定

    通道沉默周期

    报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。

    生效时间

    报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。

    报警联系人组

    发送报警的联系人组,选择已绑定报警联系人的报警组。

    报警回调

    可以访问的公网URL,云监控会将报警信息通过POST请求推送至该地址,仅支持HTTP协议。

    弹性伸缩

    EAS在线预测服务报警规则没有适配弹性伸缩功能,您无需打开弹性伸缩开关。

    日志服务

    如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务。您需要配置日志服务的地域ProjectNameLogstore

    创建ProjectName和Logstore的操作方法,请参见快速入门

    轻量消息队列(原MNS)

    如果您打开开关,当报警发生时,会将报警信息写入轻量消息队列(原 MNS)的主题。您需要设置轻量消息队列(原 MNS)的地域和主题。关于如何创建主题,请参见创建主题

    无数据处理方法

    无监控数据时报警的处理方式。取值如下:

    • 不做任何处理(默认值)

    • 发送无数据报警

    • 视为正常