Helm版本號碼 | Agent鏡像版本號碼 | 變更內容 | 發布時間 | 變更影響 |
v1.1.18 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | | 2023年12月 | 此次升級不會對業務造成影響。 |
v1.1.17 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | 新增叢集事件採集任務,支援Kubernetes Deployment大盤。 新增根據SLA進行自監控指標埋點,SLA穩定性大盤資料。 新增ServiceMonitor支援BasicAuth認證方式,Secret需要與ServiceMonitor在同一個命名空間下使用。 新增Metrics Metadata能力展示具體指標含義。 新增支援傳遞Agent Chart版本到服務端,服務端根據該版本號碼進行大盤的初始化或升級。 新增RemoteWrite自監控指標,統計每批次發送資料的耗時。 新增基礎指標採集報錯和採集延遲的自監控指標。 新增業務指標採集報錯和延遲自監控指標。 最佳化RemoteWrite預設參數queue_config設定為min_shards=10,max_samples_per_send=5000,capacity=10000,提升大規模叢集適應能力。 最佳化CSI採集Job服務發現方式,主要為PV採集相關。 最佳化senderLoop下發頻率,修改syncWorkersSeries頻率,減少不必要的擾動。 最佳化精簡部分日誌,最佳化部分日誌增加抓取鏈路耗時更細節展示。 最佳化基礎指標採集Job單獨固定採集周期和採集逾時設定,不再使用Global配置,減少對基礎指標採集受到的不必要幹擾。 最佳化Master-Slave多副本模式下互相影響的邏輯,Master與Worker,Worker與Worker之間不再互相影響,提升穩定性。 最佳化Master下發Targets策略,節省大約30%的CPU和40%的記憶體資源開銷,提升採集效能。 最佳化metrics_relabel,CPU佔用降低70%。 最佳化多租戶情境Informer監聽邏輯,多租戶情境下節省CPU開銷約20%。 最佳化CoreDNS網域名稱解析偶發失敗,自動切換緩衝IP並沿用,弱依賴CoreDNS即時網域名稱解析,提升資料發送穩定性。 最佳化SendConfig下發採集配置邏輯,提升下發穩定性。 最佳化Master預抓取策略,節省Master資源開銷,提升Master服務發現和Targets調度能力。 最佳化單批次大包大於1 MB自適應,減少因後端限制導致的資料包丟失情況。 修複ScrapeLoop個別採集Target無法停止導致採集重複的問題。 修複多租戶情境Pod的Label緩衝中更新不及時,造成一個時間軸變為兩條的問題。 修複Master對於OOM或者Restart副本偶發Targets下發異常,導致部分採集Targets丟失問題。 修複RemoteWrite中解析Secret類型問題和傳輸Header問題。 修複Kubernetes-pods關閉操作偶發不生效問題。 修複Global預設參數和external_labels不生效問題,同時支援自訂修改。
| 2023年08月 | 此次升級不會對業務造成影響。 |
v1.1.15 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | 適配Container Service ACK v1.26叢集版本。 | 2023年05月 | 此次升級不會對業務造成影響。 |
v1.1.14 | registry.{REGION}.aliyuncs.com/acs/arms-prometheus-agent:v4.0.0 | 最佳化Memory約30%和CPU約50%的資源消耗,提升採集能力。 進一步降低對CoreDNS網域名稱解析的依賴,提升資料發送穩定性。 ServiceMonitor支援BasicAuth認證。 修複RemoteWrite解析Secret類型的問題。 增加3項自監控埋點。 Metrics Metadata展示指標含義。 新增收集叢集事件指標的採集任務。 Multi-Master機制,可應對超大規模叢集服務發現和Targets調度,預設關閉。 BugFix 3+項。
| 此次升級不會對業務造成影響。 |
v1.1.13 | | | 2023年04月 | 此次升級不會對業務造成影響。 |
v1.1.12 | | | 2023年02月 | 此次升級不會對業務造成影響。 |