阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、通知等处理。
前提条件
- 已创建协议为阿里云云监控的开放告警应用。具体操作,请参见配置开放告警对外接口。
- 已创建报警联系人和联系组,并将联系人添加到联系组中。具体操作,请参见创建报警联系人或报警联系组。
云监控配置
告警消息语言
告警严重度映射关系
云监控告警消息与日志服务告警消息的严重度映射关系如下表所示。
云监控 | 日志服务 |
---|---|
CRITICAL | critical |
WARN | medium |
INFO | info |
阈值告警消息解析
云监控阈值告警消息被发送到日志服务告警系统后,日志服务会对应生成一条告警消息,两者的映射关系如下:
- 云监控阈值告警消息示例
关于云监控阈值告警消息的更多内容,请参见使用阈值报警回调。
{ "alertName": "连接数", "alertState": "ALERT", "curValue": "4.5", "dimensions": "{instanceId=i-bp1d7111111115htda, state=TCP_TOTAL, userId=11596111111355}", "expression": "$Average>=1", "instanceName": "launch-advisor-20210607/11.**.**.111", "lastTime": "27天19小时47分钟", "metricName": "Host.tcpconnection", "metricProject": "acs_ecs", "namespace": "acs_ecs", "preTriggerLevel": "WARN", "productGroupName": "null", "rawMetricName": "net_tcpconnection", "regionId": "cn-hangzhou", "regionName": "华东1(杭州)", "ruleId": "i-bp11111111115111_111111-0703-4811-9113-1c1111111111", "signature": "F111111w1111qN1111bw=", "timestamp": "1625455812126", "triggerLevel": "WARN", "userId": "11596111111355" }
- 日志服务告警消息示例
云监控阈值告警消息被接入到日志服务后,映射为日志服务告警内容。示例如下:
{ "aliuid": "aliuid1", "alert_instance_id": "", "alert_id": "i-bp11111111115111_111111-0703-4811-9113-1c1111111111", "alert_type": "sls_pub", "alert_name": "连接数", "region": "cn-hangzhou", "project": "sls-alert--", "project_id": 0, "next_eval_interval": 0, "alert_time": 1625455812, "fire_time": 1625455812, "fire_results": null, "fire_results_count": 0, "resolve_time": 0, "status": "firing", "results": null, "labels": { "instanceId": "i-bp1d7111111115htda", "namespace": "acs_ecs", "regionId": "cn-hangzhou", "state": "TCP_TOTAL", "userId": "11596111111355" }, "annotations": { "__cloud_monitor_type__": "threshold", "__config_app__": "sls_pub_alert", "__pub_alert_app__": "appid1", "__pub_alert_protocol__": "cloud_monitor", "__pub_alert_region__": "e", "__pub_alert_service__": "serverid1", "curValue": "4.5", "desc": "Host.tcpconnection $Average>=1 持续: 27天19小时47分钟, 详情: {instanceId=i-bp1d7111111115htda, state=TCP_TOTAL, userId=11596111111355}", "expression": "$Average\u003e=1", "instanceName": "launch-advisor-20210607/11.**.**.111", "lastTime": "27天19小时47分钟", "metricName": "Host.tcpconnection", "metricProject": "acs_ecs", "namespace": "acs_ecs", "preTriggerLevel": "WARN", "rawMetricName": "net_tcpconnection", "title": "acs_ecs Host.tcpconnection 当前值: 4.5" }, "severity": 6, "policy": { "alert_policy_id": "", "action_policy_id": "", "use_default": false, "repeat_interval": "0s" }, "template": null, "drill_down_query": "https://cloudmonitor.console.aliyun.com/index.htm#/alarmInfo/name=i-bp11111111115111_111111-0703-4811-9113-1c1111111111\u0026searchValue=\u0026searchType=name\u0026searchProduct=/history//" }
- 字段映射
日志服务告警属性与云监控字段的映射关系如下表所示。
日志服务 云监控 说明 aliuid 无 用于接入告警的开放告警应用所属的阿里云账号ID。 alert_id ruleId 告警监控规则ID。 alert_type 无 告警类型,固定为sls_pub。 alert_name alertName 告警监控规则名称。 status alertState 告警状态。 - 如果云监控告警消息中的alertState值为OK,则对应日志服务中的status值为resolved。
- 如果云监控告警消息中的alertState值为其他值(例如alerting),则对应日志服务中的status值为firing。
next_eval_interval 无 告警评估时间间隔,固定为0。 alert_time timestamp 日志服务接收到云监控告警消息的时间。 fire_time timestamp 日志服务接收到云监控告警消息的时间。 resolve_time 无 告警恢复时间,如果alertState为OK,则显示为当前时间,否则显示0。 labels dimensions 告警标签信息。 - regionId字段映射为云监控告警消息中的regionId字段。
- namespace字段映射为云监控告警消息中的namespace字段或metricProject字段。
说明 如果您在创建开放告警应用时 ,在信息加工中添加了标签信息,则此标签信息将被添加到labels字段中。annotations 无 云监控告警被接入到日志服务后,日志服务告警的annotations字段中将添加如下额外字段。 - __cloud_monitor_type__: "threshold"
- __config_app__: "sls_pub_alert"
- __pub_alert_service__: {所属的开放告警服务id}
- __pub_alert_app__: {所属的开放告警应用id}
- __pub_alert_protocol__: "cloud_monitor"
- __pub_alert_region__: {告警消息发送的endpoint对应的region}
云监控告警消息中的大部分字段都将被添加到annotations中,以下字段除外:ruleId字段、alertName字段、alertState字段、dimensions字段、signature字段、timestamp字段、regionId字段、regionName字段、triggerLevel字段、userId字段。
说明 如果您在创建开放告警应用时 ,在信息加工中添加了标注信息,则此标注信息将被添加到annotations字段中。severity triggerLevel、preTriggerLevel 告警严重度。更多信息,请参见告警严重程度。 policy 无 您在开放告警应用中配置的告警策略。更多信息,请参见Policy结构。 project 无 告警中心所属的Project。更多信息,请参见项目(Project)。 region regionId Project所属地域。 drill_down_query 无 由云监控控制台URL和ruleId组成。单击该链接,可跳转到云监控的报警历史页面。
事件告警消息解析
云监控事件告警消息被发送到日志服务告警系统后,日志服务会对应生成一条告警消息,两者的映射关系如下:
- 云监控事件告警消息示例
关于云监控事件告警消息的更多内容,请参见使用系统事件报警回调。
{ "traceId": "411112-c49d-4143-a38e-c111159e-0", "resourceId": "acs:ecs:cn-hangzhou:115111111111355:instance/i-bp1d71111111x15htda", "product": "ECS", "ver": "1.0", "instanceName": "launch-advisor-20210607", "level": "INFO", "userId": "115111111111355", "content": { "resourceId": "i-bp1d7411111111g111htda", "publicIpAddress": "127.0.0.1", "instanceName": "launch-advisor-20210607", "state": "Running", "privateIpAddress": "127.0.0.1", "resourceType": "ALIYUN::ECS::Instance" }, "regionId": "cn-hangzhou", "eventTime": "20210705T113013.398+0800", "name": "Instance:StateChange", "id": "26111205-51113-4D118-8119-3111113CB735", "timeMetrics": { "ingestion_in_time": 1625455813563, "ingestion_out_time": 1625455816000, "notify_in_time": 1625455819578, "engine_in_time": 1625455816467, "event_time": 1625455813398, "engine_out_time": 1625455818000 }, "status": "Normal" }
- 日志服务告警消息示例
云监控事件告警消息被接入到日志服务后,映射为日志服务告警内容。示例如下:
{ "aliuid": "aliuid1", "alert_instance_id": "26111205-51113-4D118-8119-3111113CB735", "alert_id": "Instance:StateChange", "alert_type": "sls_pub", "alert_name": "Instance:StateChange", "region": "cn-hangzhou", "project": "sls-alert--", "project_id": 0, "next_eval_interval": 0, "alert_time": 1625455813, "fire_time": 1625743445, "fire_results": null, "fire_results_count": 0, "resolve_time": 0, "status": "firing", "results": null, "labels": { "resourceId": "acs:ecs:cn-hangzhou:115111111111355:instance/i-bp1d71111111x15htda" }, "annotations": { "__cloud_monitor_type__": "event", "__config_app__": "sls_pub_alert", "__pub_alert_app__": "appid1", "__pub_alert_protocol__": "cloud_monitor", "__pub_alert_region__": "e", "__pub_alert_service__": "serverid1", "content_instanceName": "launch-advisor-20210607", "content_privateIpAddress": "127.0.0.1", "content_publicIpAddress": "127.0.0.1", "content_resourceId": "i-bp1d7411111111g111htda", "content_resourceType": "ALIYUN::ECS::Instance", "content_state": "Running", "desc": "事件Instance:StateChange触发, 详情: {\"instanceName\":\"launch-advisor-20210607\",\"privateIpAddress\":\"127.0.0.1\",\"publicIpAddress\":\"127.0.0.1\",\"resourceId\":\"i-bp1d7411111111g111htda\",\"resourceType\":\"ALIYUN::ECS::Instance\",\"state\":\"Running\"}", "instanceName": "launch-advisor-20210607", "level": "INFO", "product": "ECS", "status": "Normal", "title": "Instance:StateChange: Normal", "traceId": "411112-c49d-4143-a38e-c111159e-0", "userId": "115111111111355" }, "severity": 4, "policy": { "alert_policy_id": "", "action_policy_id": "", "use_default": false, "repeat_interval": "0s" }, "template": null, "drill_down_query": "https://cloudmonitor.console.aliyun.com/index.htm#/eventmonitoring/events/detail?product=ECS\u0026eventName=Instance:StateChange" }
- 字段映射
日志服务告警属性与云监控字段的映射关系如下表所示。
日志服务 云监控 说明 aliuid 无 用于接入告警的开放告警应用所属的阿里云账号ID。 alert_instance_id id 告警消息ID。 alert_id name 告警监控规则ID。 alert_type 无 告警类型,固定为sls_pub。 alert_name name 告警监控规则名称。 status 无 告警状态,固定为firing。 next_eval_interval 无 告警评估时间间隔,固定为0。 alert_time 无 日志服务接收到云监控告警消息的时间。 fire_time eventTime 解析eventTime,并转为时间戳。 resolve_time 无 告警恢复时间,固定为0。 labels 无 告警标签信息。 regionId字段映射为云监控告警消息中的regionId字段。
说明 如果您在创建开放告警应用时 ,在信息加工中添加了标签信息,则此标签信息将被添加到labels字段中。annotations 无 云监控告警被接入到日志服务后,日志服务告警的annotations字段中将添加如下额外字段。 - __cloud_monitor_type__: "event"
- __config_app__: "sls_pub_alert"
- _pub_alert_service__: {所属的开放告警服务id}
- __pub_alert_app__: {所属的开放告警应用id}
- __pub_alert_protocol__: "cloud_monitor"
- __pub_alert_region__: {告警消息发送的endpoint对应的region}
云监控告警消息中的大部分字段都将被添加到annotations中,以下字段除外:name字段、id字段、eventTime字段、timeMetrics字段、content字段、ver字段、resourceId字段。
其中,content字段内的键值对将被展开,并添加前缀content_,例如"content_snapshotType": "timer"。
说明 如果您在创建开放告警应用时 ,在信息加工中添加了标注信息,则此标注信息将被添加到annotations字段中。severity level 告警严重度。更多信息,请参见告警严重程度。 policy 无 您在开放告警应用中配置的告警策略。更多信息,请参见Policy结构。 project 无 告警中心所属的Project。更多信息,请参见项目(Project)。 region regionId Project所属地域。 drill_down_query 无 链接形式,由云监控控制台URL、product和name组成。单击该链接,可跳转到云监控的事件监控页面。