告警管理中心是以业务为中心的告警管理运维平台。您可以将已有监控平台(Zabbix、Prometheus等)产生的告警和日志服务资源产生的告警添加到一个业务中进行统一管理和通知,有效提高运维效率。本文介绍告警管理中心的基本架构和功能介绍。
基本架构
日志服务告警管理中心以业务为中心,每个业务都包含从资源层到事务管理的完整链路。
- 资源层:包括计算、存储、网络等资源。例如主机、虚拟机、SLB资源、Java应用、Go应用等。
- 指标层:包括时序数据、日志数据和Trace数据。指标在一定程度上可以反映资源的健康程度。
- 监控层:通过监控工具(例如Zabbix、Prometheus、日志服务告警监控系统、日志服务智能巡检服务等)创建监控规则,对指标进行监控。例如CPU使用率持续飙高、网络流量短时间陡增等。
- 可视化层:提供丰富的可视化报表,用于展示不同资源的告警态势。例如告警触发趋势、告警处理情况、通知情况等。
- 告警通知:产生告警后,根据行动策略进行告警通知。日志服务支持通过短信、语音、钉钉、自定义Webhook、事件总线、函数计算等渠道给指定用户发送通知。在通知前,您还可以通过告警策略对告警进行降噪处理,避免过多的告警噪音。
- 事务管理/行动:当合并集合中的告警被发送到告警管理系统中,通过告警策略进行处理(路由合并)时,自动创建一条对应的告警事务(Incident)。运维人员可以对不同的告警事务进行管理,例如标记为已解决、已确认、设置处理人、忽略等操作。
功能介绍
告警管理中心主要包括如下功能。
- 集成告警源:告警源是指业务下的资源,目前主要包括SLS资源和三方告警源。您可以通过如下方式集成告警源。
- 纵向告警源
按照技术部署角度集成告警源。例如目标业务使用了接入层、计算层和存储层的资源,则您可以将这三层的资源都添加到一个业务中,进行统一管理。
- 横向告警源
按照运维角度集成告警源。例如数据库运维团队需要对所有的RDS实例进行运维管理,则您可以将所有RDS实例相关的数据添加到一个业务中,进行统一管理。
- 三方告警源
当企业已有一套或多套监控平台时(例如Zabbix、Prometheus等),可以将原有监控平台产生的告警数据添加到一个业务中,进行统一管理。
- 纵向告警源
- 设置业务策略:支持设置业务专属的告警通知策略(支持告警的合并、抑制、静默等功能),并且支持三种设置模式(开启、关闭和混合)。
- 开启
使用当前业务中的通知策略进行告警通知。如果该告警源在告警中心已绑定可用的通知策略,则原有的通知策略将被屏蔽。
- 关闭
不使用当前业务中的通知策略进行告警通知。如果该告警源在告警中心已绑定可用的通知策略,则将使用原有的通知策略进行告警通知。
- 混合
如果该告警源在告警中心已绑定可用的通知策略,则将使用当前业务中的通知策略和原有的通知策略分别进行告警通知。
- 开启
- 处理告警事务:支持您对告警事务进行确认、忽略、解决和设置处理人等操作。
- 告警态势大盘:提供告警态势仪表盘,用于展示单个告警源或业务整体的告警触发情况和告警态势。
- 告警排错大盘:告警排错大盘包括全局告警链路中心、全局告警监控规则中心、全局告警排障中心和开放告警中心,用于可视化展示告警的相关信息。