组件介绍
ack-arms-prometheus是阿里云容器服务Kubernetes版提供对接阿里云Prometheus的监控组件。当在ACK集群开启Prometheus监控功能时,需要安装此组件。此组件负责上报采集到的监控数据至阿里云Prometheus,阿里云Prometheus根据上报的监控数据形成数据链路。您可以在阿里云Prometheus查看监控大盘、数据链路等信息。
变更记录
2024年
Helm版本号 | Agent镜像版本号 | 变更内容 | 发布时间 | 变更影响 |
v1.1.19 | registry-{REGION}.ack.aliyuncs.com/acs/arms-prometheus-agent:v4.1.0 | | 2024年03月 | 此次升级不会对业务造成影响。 |
2023年
展开折叠面板查看2023年组件变更记录
Helm版本号 | Agent镜像版本号 | 变更内容 | 发布时间 | 变更影响 |
v1.1.18 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | | 2023年12月 | 此次升级不会对业务造成影响。 |
v1.1.17 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | 新增集群事件采集任务,支持Kubernetes Deployment大盘。 新增根据SLA进行自监控指标埋点,SLA稳定性大盘数据。 新增ServiceMonitor支持BasicAuth认证方式,Secret需要与ServiceMonitor在同一个命名空间下使用。 新增Metrics Metadata能力展示具体指标含义。 新增支持传递Agent Chart版本到服务端,服务端根据该版本号进行大盘的初始化或升级。 新增RemoteWrite自监控指标,统计每批次发送数据的耗时。 新增基础指标采集报错和采集延迟的自监控指标。 新增业务指标采集报错和延迟自监控指标。 优化RemoteWrite默认参数queue_config设置为min_shards=10,max_samples_per_send=5000,capacity=10000,提升大规模集群适应能力。 优化CSI采集Job服务发现方式,主要为PV采集相关。 优化senderLoop下发频率,修改syncWorkersSeries频率,减少不必要的扰动。 优化精简部分日志,优化部分日志增加抓取链路耗时更细节展示。 优化基础指标采集Job单独固定采集周期和采集超时设置,不再使用Global配置,减少对基础指标采集受到的不必要干扰。 优化Master-Slave多副本模式下互相影响的逻辑,Master与Worker,Worker与Worker之间不再互相影响,提升稳定性。 优化Master下发Targets策略,节省大约30%的CPU和40%的内存资源开销,提升采集性能。 优化metrics_relabel,CPU占用降低70%。 优化多租户场景Informer监听逻辑,多租户场景下节省CPU开销约20%。 优化CoreDNS域名解析偶发失败,自动切换缓存IP并沿用,弱依赖CoreDNS实时域名解析,提升数据发送稳定性。 优化SendConfig下发采集配置逻辑,提升下发稳定性。 优化Master预抓取策略,节省Master资源开销,提升Master服务发现和Targets调度能力。 优化单批次大包大于1 MB自适应,减少因后端限制导致的数据包丢失情况。 修复ScrapeLoop个别采集Target无法停止导致采集重复的问题。 修复多租户场景Pod的Label缓存中更新不及时,造成一个时间线变为两条的问题。 修复Master对于OOM或者Restart副本偶发Targets下发异常,导致部分采集Targets丢失问题。 修复RemoteWrite中解析Secret类型问题和传输Header问题。 修复Kubernetes-pods关闭操作偶发不生效问题。 修复Global默认参数和external_labels不生效问题,同时支持自定义修改。
| 2023年08月 | 此次升级不会对业务造成影响。 |
v1.1.15 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | 适配容器服务 ACK v1.26集群版本。 | 2023年05月 | 此次升级不会对业务造成影响。 |
v1.1.14 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | 优化Memory约30%和CPU约50%的资源消耗,提升采集能力。 进一步降低对CoreDNS域名解析的依赖,提升数据发送稳定性。 ServiceMonitor支持BasicAuth认证。 修复RemoteWrite解析Secret类型的问题。 增加3项自监控埋点。 Metrics Metadata展示指标含义。 新增收集集群事件指标的采集任务。 Multi-Master机制,可应对超大规模集群服务发现和Targets调度,默认关闭。 BugFix 3+项。
| 此次升级不会对业务造成影响。 |
v1.1.13 | | | 2023年04月 | 此次升级不会对业务造成影响。 |
v1.1.12 | | | 2023年02月 | 此次升级不会对业务造成影响。 |
2022年
展开折叠面板查看2022年组件变更记录
版本号 | 镜像地址 | 变更内容 | 发布时间 | 变更影响 |
v1.1.11 | | 增加服务降级功能,在Remote Write失败时优先保证主链路采集稳定。 支持采集Job中Global Config的修改。 Remote Write增强,当CoreDNS发生解析域名失败时,自动切换为提前缓存的IP方式发送。 Remote Write支持配置多个发送地址。
| 2022年12月 | 此次升级不会对业务造成影响。 |
v1.1.9 | | Agent支持多种CPU架构,包括amd64、arm、arm64、ppc64le、s390x。 Agent自监控能力增强。 Agent内存垃圾回收策略优化。 优化多副本Target调度策略,避免Worker内存泄漏。 Agent内存降级问题已修复。 修复多副本状态下的边界条件死锁问题。 新增4种服务发现的能力,包括IonOS、PuppetDB、Uyuni、Vultr。
| 2022年09月 | 此次升级不会对业务造成影响。 |
v1.1.7 | | 支持新版GPU-Exporter指标与大盘。更多信息,请参见开启集群GPU监控。 | 2022年07月 | 此次升级不会对业务造成影响。 |
v1.1.6 | | 修复GPU-Exporter v1.x版本数据采集问题。 | 2022年06月 | 此次升级不会对业务造成影响。 |
v1.1.5 | | 支持集成中心。 支持超大规模集群(>1万节点)。 支持设置非可观测监控Prometheus 版控制台创建的ServiceMonitor和PodMonitor同步。 支持配置非可观测监控Prometheus版控制台创建的ServiceMonitor与PodMonitor声明式服务发现。 支持Agent HPA副本数上限可参数化配置。 支持编辑Prometheus基础指标Job部分字段。 支持在线校验ServiceMonitor、PodMonitor及Prometheus.yaml相关配置文件。 优化CPU、内存资源使用与系统稳定性。
| 2022年05月 | 此次升级不会对业务造成影响。 |
v1.1.4 | | node-exporter安全加固。 gpu-exporter修复挂载卷问题。
| 2022年04月 | 此次升级不会对业务造成影响。 |
v1.1.3 | | 兼容1.22版本集群。 | 2022年02月 | 此次升级不会对业务造成影响。 |
v1.1.2 | | 升级kube-state-metrics v2.3.0-755434c-aliyun版本。 | 2022年01月 | 此次升级不会对业务造成影响。 |
2021年
展开折叠面板查看2021年组件变更记录
版本号 | 镜像地址 | 变更内容 | 发布时间 | 变更影响 |
v1.1.11 | | 增加服务降级功能,在Remote Write失败时优先保证主链路采集稳定。 支持采集Job中Global Config的修改。 Remote Write增强,当CoreDNS发生解析域名失败时,自动切换为提前缓存的IP方式发送。 Remote Write支持配置多个发送地址。
| 2022年12月 | 此次升级不会对业务造成影响。 |
v1.1.9 | | Agent支持多种CPU架构,包括amd64、arm、arm64、ppc64le、s390x。 Agent自监控能力增强。 Agent内存垃圾回收策略优化。 优化多副本Target调度策略,避免Worker内存泄漏。 Agent内存降级问题修复。 修复多副本状态下的边界条件死锁问题。 新增4种服务发现的能力,包括IonOS、PuppetDB、Uyuni、Vultr。
| 2022年09月 | 此次升级不会对业务造成影响。 |
v1.1.7 | | 支持新版GPU-Exporter指标与大盘。更多信息,请参见开启集群GPU监控。 | 2022年07月 | 此次升级不会对业务造成影响。 |
v1.1.6 | | 修复GPU-Exporter v1x版本数据采集问题。 | 2022年06月 | 此次升级不会对业务造成影响。 |
v1.1.5 | | 支持集成中心。 支持超大规模集群(>1万节点)。 支持设置非可观测监控 Prometheus 版控制台创建的ServiceMonitor和PodMonitor同步。 支持配置非可观测监控 Prometheus版控制台创建的ServiceMonitor与PodMonitor声明式服务发现。 支持Agent HPA副本数上限可参数化配置。 支持编辑Prometheus基础指标Job部分字段。 支持在线校验ServiceMonitor、PodMonitor及Prometheus.yaml相关配置文件。 优化CPU、内存资源使用与系统稳定性。
| 2022年05月 | 此次升级不会对业务造成影响。 |
v1.1.4 | | node-exporter安全加固。 gpu-exporter修复挂载卷问题。
| 2022年04月 | 此次升级不会对业务造成影响。 |
v1.1.3 | | 兼容1.22版本集群。 | 2022年02月 | 此次升级不会对业务造成影响。 |
1.1.2 | | 升级kube-state-metrics v2.3.0-755434c-aliyun版本。 | 2022年01月 | 此次升级不会对业务造成影响。 |
2020年
展开折叠面板查看2020年组件变更记录
Helm版本号 | Agent镜像版本号 | 功能概述 | 发布时间 | 变更影响 |
v0.1.5 | arms-prom-operator:v0.1 | | 2020年10月 | 此次升级不会对业务造成影响。 |
v0.1.4 | arms-prom-operator:v0.1 | 开箱即用的K8s容器监控,包括Pod监控、Node监控和Resource监控等,主要用于监控应用所在的K8s容器运行时。 白屏化的组件监控,包括MySQL、Redis、Kafka、ZooKeeper和Nginx等常见的9种组件监控,主要用于监控应用依赖中间件的场景。 全托管的可观测监控 Prometheus 版系统,包括Prometheus.yaml采集规则、Grafana大盘和告警系统,可以满足自建Prometheus迁移阿里云的需求场景。 Bug修复:修复鉴权访问Bug。
| 2020年07月 | 此次升级不会对业务造成影响。 |
v0.1.3 | arms-prom-operator:v0.1 | 增加Agent资源使用限制。 | 2020年04月 | 此次升级不会对业务造成影响。 |
2019年
展开折叠面板查看2019年组件变更记录
Helm版本号 | Agent镜像版本号 | 功能概述 | 发布时间 | 变更影响 |
v0.1.2 | arms-prom-operator:v0.1 | 初始发布版本。 | 2019年08月 | 此次升级不会对业务造成影响。 |