全部產品
Search
文件中心

Managed Service for Prometheus:Prometheus 探針版本發布說明

更新時間:Sep 21, 2024

本文介紹Prometheus 探針版本發布說明。

2024年

Prometheus 探針

Prometheus 探針版本號碼

發布時間

採集指標內容

變更內容

v1.1.22

2024年09月

容器環境

  • 新增部分Node Exporter和KSM基礎指標支援。

  • 移除arms-prom空間下arms-prom-admin服務9335連接埠的/aliyun頁面,滿足安全合規需求。

v1.1.20

2024年05月

容器環境

  • 【採集】修複內建採集作業無法自訂覆蓋的問題。

  • 【採集】增加最大副本數的自監控指標 aliyun_prometheus_agent_hpa_max_limit。

  • 【採集】改進VPC託管情境運行支援。

  • 【採集】支援通過功能開關啟用HTTPS上報指標。

  • 【採集】支援ASM mTLS環境自適應採集指標。

  • 【採集】修複指標預覽URL,包含異常字元失敗的問題。

  • 【採集】修複採集配置載入本地不存在的CA認證導致程式不工作的問題。

  • 【採集】增加對政務雲、金融雲、沙特等地區的自監控指標推送。

  • 【採集】內建採集作業Node Exporter指標增加節點名稱標籤。

  • 【採集】禁用Prometheus儲存執行個體註冊能力。

  • 【採集】分桶指標收斂支援在多副本模式下工作。

  • 【管控】獨立組件提供Prometheus執行個體註冊能力,預設關閉採集組件的註冊機制。

  • 【管控】提供可觀測接入中心組件安裝、卸載能力。

  • 【管控】支援啟用容器監控Pro版。

  • 【Kube-State-Metrics】升級AutoScaling API到v2。

  • 【Kube-State-Metrics】升級CronJob和PodDisruptionBudget API版本到v1。

  • 【Kube-State-Metrics】安全性原則調整。

雲端服務

  • 提供更及時的資料處理能力,大規模資料擷取情境,指標時延增量降低到秒級。

  • 新接入雲產品時的指標採集生效時間從分鐘級降低到秒級。

  • 新增自訂選擇雲端服務產品Tag注入到指標的能力。

  • 由於架構調整,原Prometheus Agent相關自監控指標不再投遞到使用者執行個體(該部分指標不收費)。如果您在警示中依賴了非雲產品的自監控指標(例如aliyun_arms 開頭的指標),請先移除對此類指標的依賴後升級。

  • 部分老版本執行個體的指標中存在arms_instance_idarms_instance_name,在該版本中已廢棄。

  • 由於架構調整,不再提供Targets列表查詢。

v1.1.19

2024年03月

容器環境

  • 改進大規模叢集首次接入的指標採集延遲。

  • 服務發現模式最佳化,降低不通採集作業配置變更的影響。

  • 豐富自監控指標,可識別採集異常引起的資料不齊全問題。

  • 支援更靈活的指標白名單裁剪配置。

  • 修複一批邊界情況下採集異常的問題。

2023年

展開摺疊面板查看2023年組件變更記錄

Helm版本號碼

Agent鏡像版本號碼

變更內容

發布時間

變更影響

v1.1.18

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • 調整了Node Exporter, GPU Exporter等資源的 Request 和 Limit。

  • Node Exporter連接埠號碼支援配置,預設值保持 9100 不變。

2023年12月

此次升級不會對業務造成影響。

v1.1.17

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • 新增叢集事件採集任務,支援Kubernetes Deployment大盤。

  • 新增根據SLA進行自監控指標埋點,SLA穩定性大盤資料。

  • 新增ServiceMonitor支援BasicAuth認證方式,Secret需要與ServiceMonitor在同一個命名空間下使用。

  • 新增Metrics Metadata能力展示具體指標含義。

  • 新增支援傳遞Agent Chart版本到服務端,服務端根據該版本號碼進行大盤的初始化或升級。

  • 新增RemoteWrite自監控指標,統計每批次發送資料的耗時。

  • 新增基礎指標採集報錯和採集延遲的自監控指標。

  • 新增業務指標採集報錯和延遲自監控指標。

  • 最佳化RemoteWrite預設參數queue_config設定為min_shards=10,max_samples_per_send=5000,capacity=10000,提升大規模叢集適應能力。

  • 最佳化CSI採集Job服務發現方式,主要為PV採集相關。

  • 最佳化senderLoop下發頻率,修改syncWorkersSeries頻率,減少不必要的擾動。

  • 最佳化精簡部分日誌,最佳化部分日誌增加抓取鏈路耗時更細節展示。

  • 最佳化基礎指標採集Job單獨固定採集周期和採集逾時設定,不再使用Global配置,減少對基礎指標採集受到的不必要幹擾。

  • 最佳化Master-Slave多副本模式下互相影響的邏輯,Master與Worker,Worker與Worker之間不再互相影響,提升穩定性。

  • 最佳化Master下發Targets策略,節省大約30%的CPU和40%的記憶體資源開銷,提升採集效能。

  • 最佳化metrics_relabel,CPU佔用降低70%。

  • 最佳化多租戶情境Informer監聽邏輯,多租戶情境下節省CPU開銷約20%。

  • 最佳化CoreDNS網域名稱解析偶發失敗,自動切換緩衝IP並沿用,弱依賴CoreDNS即時網域名稱解析,提升資料發送穩定性。

  • 最佳化SendConfig下發採集配置邏輯,提升下發穩定性。

  • 最佳化Master預抓取策略,節省Master資源開銷,提升Master服務發現和Targets調度能力。

  • 最佳化單批次大包大於1 MB自適應,減少因後端限制導致的資料包丟失情況。

  • 修複ScrapeLoop個別採集Target無法停止導致採集重複的問題。

  • 修複多租戶情境Pod的Label緩衝中更新不及時,造成一個時間軸變為兩條的問題。

  • 修複Master對於OOM或者Restart副本偶發Targets下發異常,導致部分採集Targets丟失問題。

  • 修複RemoteWrite中解析Secret類型問題和傳輸Header問題。

  • 修複Kubernetes-pods關閉操作偶發不生效問題。

  • 修複Global預設參數和external_labels不生效問題,同時支援自訂修改。

2023年08月

此次升級不會對業務造成影響。

v1.1.15

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

適配Container Service ACK v1.26叢集版本。

2023年05月

此次升級不會對業務造成影響。

v1.1.14

registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • 最佳化Memory約30%和CPU約50%的資源消耗,提升採集能力。

  • 進一步降低對CoreDNS網域名稱解析的依賴,提升資料發送穩定性。

  • ServiceMonitor支援BasicAuth認證。

  • 修複RemoteWrite解析Secret類型的問題。

  • 增加3項自監控埋點。

  • Metrics Metadata展示指標含義。

  • 新增收集叢集事件指標的採集任務。

  • Multi-Master機制,可應對超大規模叢集服務發現和Targets調度,預設關閉。

  • BugFix 3+項。

此次升級不會對業務造成影響。

v1.1.13

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0

  • registry.{REGION}.aliyuncs.com/acs/gpu-prometheus-exporter:v2.3.6-994eaf7-aliyun

  • 升級GPU-Exporter v2.3.6-994eaf7-aliyun。

  • 支援ACK One註冊叢集。

2023年04月

此次升級不會對業務造成影響。

v1.1.12

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.1

  • registry.{REGION}.aliyuncs.com/acs/gpu-prometheus-exporter:v2.3.6-fdb40f2-aliyun

  • 升級GPU-Exporter v2.3.6-fdb40f2-aliyun。

  • 最佳化組件鏡像拉取速度。

2023年02月

此次升級不會對業務造成影響。

2022年

展開摺疊面板查看2022年組件變更記錄

版本號碼

鏡像地址

變更內容

發布時間

變更影響

v1.1.11

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.1

  • 增加服務降級功能,在Remote Write失敗時優先保證主鏈路採集穩定。

  • 支援採集Job中Global Config的修改。

  • Remote Write增強,當CoreDNS發生解析網域名稱失敗時,自動切換為提前緩衝的IP方式發送。

  • Remote Write支援配置多個發送地址。

2022年12月

此次升級不會對業務造成影響。

v1.1.9

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.0

  • Agent支援多種CPU架構,包括amd64、arm、arm64、ppc64le、s390x。

  • Agent自監控能力增強。

  • Agent記憶體記憶體回收策略最佳化。

  • 最佳化多副本Target調度策略,避免Worker記憶體流失。

  • Agent記憶體降級問題已修複。

  • 修複多副本狀態下的邊界條件死結問題。

  • 新增4種服務發現的能力,包括IonOS、PuppetDB、Uyuni、Vultr。

2022年09月

此次升級不會對業務造成影響。

v1.1.7

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v2.3.6-2.0.0-0c0440f

支援新版GPU-Exporter指標與大盤。更多資訊,請參見開啟叢集GPU監控

2022年07月

此次升級不會對業務造成影響。

v1.1.6

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v1.0.1-26c5321

修複GPU-Exporter v1.x版本資料擷取問題。

2022年06月

此次升級不會對業務造成影響。

v1.1.5

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.1.0

  • 支援整合中心。

  • 支援超大規模叢集(>1萬節點)。

  • 支援設定非可觀測監控Prometheus 版控制台建立的ServiceMonitor和PodMonitor同步。

  • 支援配置非可觀測監控Prometheus版控制台建立的ServiceMonitor與PodMonitor聲明式服務發現。

  • 支援Agent HPA副本數上限可參數化配置。

  • 支援編輯Prometheus基礎指標Job部分欄位。

  • 支援線上校正ServiceMonitor、PodMonitor及Prometheus.yaml相關設定檔。

  • 最佳化CPU、記憶體資源使用與系統穩定性。

2022年05月

此次升級不會對業務造成影響。

v1.1.4

  • node-exporter安全強化。

  • gpu-exporter修複掛載卷問題。

2022年04月

此次升級不會對業務造成影響。

v1.1.3

相容1.22版本叢集。

2022年02月

此次升級不會對業務造成影響。

v1.1.2

升級kube-state-metrics v2.3.0-755434c-aliyun版本。

2022年01月

此次升級不會對業務造成影響。

2021年

展開摺疊面板查看2021年組件變更記錄

版本號碼

鏡像地址

變更內容

發布時間

變更影響

v1.1.11

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.1

  • 增加服務降級功能,在Remote Write失敗時優先保證主鏈路採集穩定。

  • 支援採集Job中Global Config的修改。

  • Remote Write增強,當CoreDNS發生解析網域名稱失敗時,自動切換為提前緩衝的IP方式發送。

  • Remote Write支援配置多個發送地址。

2022年12月

此次升級不會對業務造成影響。

v1.1.9

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.2.0

  • Agent支援多種CPU架構,包括amd64、arm、arm64、ppc64le、s390x。

  • Agent自監控能力增強。

  • Agent記憶體記憶體回收策略最佳化。

  • 最佳化多副本Target調度策略,避免Worker記憶體流失。

  • Agent記憶體降級問題修複。

  • 修複多副本狀態下的邊界條件死結問題。

  • 新增4種服務發現的能力,包括IonOS、PuppetDB、Uyuni、Vultr。

2022年09月

此次升級不會對業務造成影響。

v1.1.7

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v2.3.6-2.0.0-0c0440f

支援新版GPU-Exporter指標與大盤。更多資訊,請參見開啟叢集GPU監控

2022年07月

此次升級不會對業務造成影響。

v1.1.6

  • arms-prom-operator:v3.1.0

  • gpu-prometheus-exporter:v1.0.1-26c5321

修複GPU-Exporter v1x版本資料擷取問題。

2022年06月

此次升級不會對業務造成影響。

v1.1.5

  • registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v3.1.0

  • 支援整合中心。

  • 支援超大規模叢集(>1萬節點)。

  • 支援設定非可觀測監控 Prometheus 版控制台建立的ServiceMonitor和PodMonitor同步。

  • 支援配置非可觀測監控 Prometheus版控制台建立的ServiceMonitor與PodMonitor聲明式服務發現。

  • 支援Agent HPA副本數上限可參數化配置。

  • 支援編輯Prometheus基礎指標Job部分欄位。

  • 支援線上校正ServiceMonitor、PodMonitor及Prometheus.yaml相關設定檔。

  • 最佳化CPU、記憶體資源使用與系統穩定性。

2022年05月

此次升級不會對業務造成影響。

v1.1.4

  • node-exporter安全強化。

  • gpu-exporter修複掛載卷問題。

2022年04月

此次升級不會對業務造成影響。

v1.1.3

相容1.22版本叢集。

2022年02月

此次升級不會對業務造成影響。

1.1.2

升級kube-state-metrics v2.3.0-755434c-aliyun版本。

2022年01月

此次升級不會對業務造成影響。

2020年

展開摺疊面板查看2020年組件變更記錄

Helm版本號碼

Agent鏡像版本號碼

功能概述

發布時間

變更影響

v0.1.5

arms-prom-operator:v0.1

  • 支援阿里雲Container ServiceKubernetes版v1.18叢集。

  • 支援鏡像Region從內網地址拉取。

2020年10月

此次升級不會對業務造成影響。

v0.1.4

arms-prom-operator:v0.1

  • 開箱即用的K8s容器監控,包括Pod監控、Node監控和Resource監控等,主要用於監控應用所在的K8s容器運行時。

  • 白屏化的組件監控,包括MySQL、Redis、Kafka、ZooKeeper和Nginx等常見的9種組件監控,主要用於監控應用依賴中介軟體的情境。

  • 全託管的可觀測監控 Prometheus 版系統,包括Prometheus.yaml採集規則、Grafana大盤和警示系統,可以滿足自建Prometheus遷移阿里雲的需求情境。

  • Bug修複:修複鑒權訪問Bug。

2020年07月

此次升級不會對業務造成影響。

v0.1.3

arms-prom-operator:v0.1

增加Agent資源使用限制。

2020年04月

此次升級不會對業務造成影響。

2019年

展開摺疊面板查看2019年組件變更記錄

Helm版本號碼

Agent鏡像版本號碼

功能概述

發布時間

變更影響

v0.1.2

arms-prom-operator:v0.1

初始發布版本。

2019年08月

此次升級不會對業務造成影響。