全部产品
Search
文档中心

计算巢服务:监控和报警综述

更新时间:Oct 23, 2024

计算巢为用户提供了全面而综合的系统监控解决方案,覆盖了基础设施的资源级监控——云监控以及应用程序的Prometheus监控。这一方案确保用户的云资源无论在软件逻辑层面还是硬件物理层面均能获得细致、全方位的性能监控和健康管理。通过构建这样一个监控生态,用户可以从多角度获取所购买的服务实例的使用情况,及时响应潜在的问题,优化资源配置,提升服务稳定性与业务效率。

概述

监控:为您提供跨云服务、跨地域的资源分组管理功能。支持您从业务角度集中管理服务器、数据库、负载均衡、存储等资源,从而按实际业务需求来管理报警规则,查看监控数据,提升运维效率。

报警:监控项满足报警条件时发送报警通知。功能范围包括阈值报警、事件报警、组进程报警、可用性监控报警。报警规则的详细配置,请参见创建报警规则

云监控支持的资源或云产品,请参见支持的云产品及其系统事件

资源级监控 - 云监控

计算巢通过集成阿里云-云监控为云上用户提供开箱即用的资源级监控解决方案,该方案可涵盖IT设施基础监控和外网网络质量拨测监控,是基于事件、自定义指标和日志的业务监控,同时提供完善的报警系统,使问题得到高效响应和解决,特点如下:

  • 开箱即用:对于阿里云-云监控支持的资源,无需额外配置,开箱即用地查看计算巢服务实例内的资源监控。

  • 紧急报警:对于计算巢的私有化和全托管服务中,均可设置云上资源的报警模板和报警联系人,使云上资源的紧急事件得到响应和处理。

  • 灵活分组:计算巢通过应用分组支持对资源提供跨云服务和跨地域的应用分组管理模型和报警模板,用于建设高效的监控报警管理体系。

其产品架构如下图所示:image

软件级监控 - Prometheus

计算巢通过集成阿里云Prometheus探针为用户的应用平台提供深入到软件层面的监控能力,基于Grafana大盘提供可视化能力并用于识别性能瓶颈,并通过AlertManager实现告警功能。

基于Prometheus的软件监控特点如下:

  • 应用范围广:计算巢集成Prometheus可为ACK集群和ECS集群等多样化的云计算环境提供精准的应用级监控。

  • 数据隔离与安全:通过在监控数据上打上租户Tag,计算巢保障了在多租户环境下监控数据的安全性和隔离性。这意味着每个租户的监控数据都是独立和私有的,避免了数据泄露和滥用的风险。

  • 直观展示:内嵌的Grafana大盘赋予了用户从宏观视角全面审视软件监控数据的能力。各类图表、仪表盘和指标的直观可视化,让即使是非技术用户也能轻松把握系统的运行状况。

  • 简单配置:通过自动化配置服务和界面化配置,计算巢消除了设置复杂的监控参数的难题。用户可以通过简单的点击和输入,迅速完成对Prometheus监控的配置,无需深入了解背后复杂的设置细节。