全部产品
Search
文档中心

云监控:报警通知合并

更新时间:Dec 27, 2023

当同一个阿里云账号的多个资源在同一报警规则和周期内同时报警时,为减少报警资源的消耗和冗余信息的干扰,云监控在第一条报警通知发出后,以一分钟为周期对后续的报警通知进行合并发送。本文将介绍不同报警规则下的报警通知合并示例。

报警通知方式

报警通知合并影响的报警通知方式包括:邮件和钉钉机器人。报警通知合并后,邮件和钉钉机器人仅展示前20条资源的详细信息。

通过应用分组设置阈值报警规则

示例:创建报警规则test_cpu_alarm,对应用分组testGroup中的云服务器ECS实例的监控指标(Agent)Host.cpu.total(推荐)进行监控,并将报警通知以邮件和钉钉机器人的方式发送给报警联系人组Alarm_Group。应用分组testGroup和报警联系人组Alarm_Group需要您提前创建。

  1. 登录云监控控制台

  2. 在左侧导航栏,单击应用分组

  3. 应用分组页签,单击应用分组名称testGroup

  4. 在目标应用分组的左侧导航栏,单击报警规则

  5. 单击创建报警规则

  6. 创建报警规则面板,选择产品云服务器ECS

  7. 单击添加规则,设置云服务器ECS实例的报警规则,然后单击确定

    参数

    示例

    规则名称

    test_cpu_alarm

    监控指标

    (Agent)Host.cpu.total(推荐)

    阈值

    >=10%

    报警级别

    Info

    报警通知方式

    邮件+WebHook

  8. 选择报警联系人组Alarm_Group,单击确定

    报警规则设置完毕后,如果多个资源在同一周期内满足报警规则,报警信息会自动合并。不同报警通知方式的通知信息如下:

    • 邮件

      • 第一条报警通知是应用分组中第一条资源的报警信息。邮件1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。邮件只展示前20条资源的详细信息。邮件2

    • 钉钉机器人

      • 第一条报警通知是应用分组中第一条资源的报警信息。钉钉机器人1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。钉钉机器人只展示前20条资源的详细信息。钉钉机器人2

通过报警服务为全部资源设置阈值报警规则

示例:创建报警规则test_cpu_alarm,对云服务器ECS中全部资源的监控指标(Agent)Host.cpu.total(推荐)进行监控,并将报警通知以邮件和钉钉机器人的方式发送给报警联系人组Alarm_Group

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,为云服务器ECS全部资源的指定监控指标设置报警规则和通知方式。

    参数

    示例

    产品

    云服务器ECS

    资源范围

    全部资源

    规则名称

    test_cpu_alarm

    监控指标

    (Agent)Host.cpu.total(推荐)

    周期

    1分钟

    阈值

    最大值>=10%

    报警持续周期

    5个

    报警级别

    Info

    报警通知方式

    邮件+WebHook

    报警联系人组

    Alarm_Group

  5. 单击确认

    报警规则设置完毕后,如果多个资源在同一周期内满足报警规则,报警信息会自动合并。不同报警通知方式的通知信息如下:

    • 邮件

      • 第一条报警通知是应用分组中第一条资源的报警信息。邮件1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。邮件只展示前20条资源的详细信息。邮件2

    • 钉钉机器人

      • 第一条报警通知是应用分组中第一条资源的报警信息。钉钉机器人1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。钉钉机器人只展示前20条资源的详细信息。钉钉机器人2