雲訊息佇列 Kafka 版整合了HouseKeeping(健康巡檢組件),定時對叢集進行全面掃描診斷,並能針對不健康的狀態進行警示。本文將為您詳細介紹雲訊息佇列 Kafka 版的巡檢功能。
巡檢說明
為了進一步提升叢集的穩定性和服務的可靠性,雲訊息佇列 Kafka 版團隊對巡檢功能進行了顯著增強。這一增強旨在高效地發現和解決叢集中的部分異常問題,從而進一步確保使用者業務穩定運行。
增加了秒級收發能力巡檢。
巡檢通過內部 Topic 快速檢測叢集的訊息收發能力。當出現訊息收發失敗、延遲上升、吞吐異常下跌、相依元件串連異常等問題時,能夠立即向雲訊息佇列 Kafka 版團隊警示。這種及時的警示機制能夠使技術團隊迅速響應和解決問題,從而降低對使用者業務的影響,確保業務的連續性和穩定性。
對使用者Topic的位點和Metadata等資訊進行嚴格校正。
這種校正機制確保了記憶體資料的正確性和一致性,防止因資料不一致導致的潛在問題。
具備強大的監控能力,可以即時監控Kafka進程的狀態。
在系統運行過程中,如果出現IO Hang、線程死結、JVM Crash、串連洪流、記憶體流失等異常問題,巡檢功能能夠迅速做出反應,自動重新啟動Kafka進程。這種自動化的處理機制進一步確保了雲訊息佇列 Kafka 版服務的連續性和可用性,大大縮短了從發現問題到恢複正常所需的時間視窗。
注意事項
內部巡檢Topic為:
__alikafka_housekeeping_local_topic、__alikafka_housekeeping_cloud_topic。重要雲訊息佇列 Kafka 版執行個體部署成功後,系統會自動建立內部巡檢Topic。
內部巡檢Topic不支援刪除操作,只有在刪除執行個體時才會執行刪除。
在最小規格下,叢集巡檢中,一個Topic會產生大約100 B/s的生產、消費流量和10 M的儲存消耗(頻寬消耗與叢集規格正相關)。