通过服务监控报警功能,您可以监控服务运行情况。如果服务运行情况超过了配置的报警规则(条件),则发送报警通知。
背景信息
EAS支持对服务的以下项目进行监控报警。
监控项目 | 描述 |
CPU消耗 | 服务当前消耗的CPU核数。 |
GPU利用率 | 服务当前GPU使用量占部署GPU总量的比重。 |
GPU显存 | 服务当前GPU显存使用量。 |
内存消耗 | 服务当前内存消耗,单位MB。 |
每秒总调用次数 | 服务每秒总调用次数。 |
状态码2xx每秒响应 | 状态码为2xx的每秒响应。 |
状态码2xx响应占比 | 状态码为2xx的响应占比。 |
状态码4xx每秒响应 | 状态码为4xx的每秒响应。 |
状态码4xx响应占比 | 状态码为4xx的响应占比。 |
状态码5xx每秒响应 | 状态码为5xx的每秒响应。 |
状态码5xx响应占比 | 状态码为5xx的响应占比。 |
TP5响应时间 | 前5%请求最大响应时间。 |
TP80响应时间 | 前80%请求最大响应时间。 |
TP90响应时间 | 前90%请求最大响应时间。 |
TP95响应时间 | 前95%请求最大响应时间。 |
TP99响应时间 | 前99%请求最大响应时间。 |
TP100响应时间 | 前100%请求最大响应时间。 |
入流量 | 每秒进入服务的数据量,单位KB。 |
出流量 | 每秒流出服务的数据量,单位KB。 |
步骤一:配置报警联系人
创建报警联系人。
登录云监控控制台。
在左侧导航栏,选择 。
在报警联系人页签,单击创建联系人。
在设置报警联系人面板,输入报警联系人姓名、邮箱和钉钉机器人。
选择报警通知信息语言,并滑动下方的滑块。
系统支持如下三种方式:
自动:根据当前账号注册时的语言自动适配报警通知信息的语言,即中国站为中文,国际站和日本站为英文。
中文
English
单击确认。
创建报警联系组
在左侧导航栏,选择 。
单击报警联系组页签。
在报警联系组页签,单击新建联系人组。
在新建联系人组面板,填写报警联系人组的组名,并选择已有报警联系人。
单击确认。
步骤二:配置报警规则
在云监控控制台的左侧导航栏,单击 。
在云产品监控页面的搜索框中,搜索PAI-EAS在线预测服务,并单击PAI-EAS在线预测服务。
在PAI-EAS在线预测服务页面,选择服务所在的地域,单击服务操作列下的监控图表。
单击创建报警规则。
在创建报警规则面板,配置以下参数,并单击确认。
参数
描述
产品
云监控管理的产品名称,选择PAI-EAS在线预测服务。
资源范围
报警规则的作用范围,分为全部资源和实例:
全部资源:EAS的任何服务满足报警规则,都会发送报警通知。
实例:仅选中的单个或多个服务实例满足报警规则时,才发送报警通知。
规则描述
报警规则的主体,当监控数据满足指定条件时,触发报警规则。规则描述的设置方法如下:
单击添加规则。
在添加规则描述面板,设置规则名称、指标类型、监控指标、阈值、报警级别和报警方式等。
单击确定。
通道沉默周期
报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
生效时间
报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
报警联系人组
发送报警的联系人组,选择已绑定报警联系人的报警组。
报警回调
可以访问的公网URL,云监控会将报警信息通过POST请求推送至该地址,仅支持HTTP协议。
弹性伸缩
EAS在线预测服务报警规则没有适配弹性伸缩功能,您无需打开弹性伸缩开关。
日志服务
如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务。您需要配置日志服务的地域、ProjectName及Logstore。
创建ProjectName和Logstore的操作方法,请参见快速入门。
轻量消息队列(原MNS)
如果您打开开关,当报警发生时,会将报警信息写入轻量消息队列(原 MNS)的主题。您需要设置轻量消息队列(原 MNS)的地域和主题。关于如何创建主题,请参见创建主题。
无数据处理方法
无监控数据时报警的处理方式。取值如下:
不做任何处理(默认值)
发送无数据报警
视为正常