全部產品
Search
文件中心

Container Service for Kubernetes:CoreDNS組件監控

更新時間:Jun 19, 2024

CoreDNS是ACK叢集中預設採用的DNS服務發現外掛程式。本文介紹如何查看CoreDNS組件監控大盤、常見指標異常的問題解析,以及CoreDNS組件的指標清單。

前提條件

  • 已開通ARMS。具體操作,請參見開通ARMS
  • 已安裝ack-arms-prometheus組件。具體操作,請參見管理組件

查看CoreDNS組件監控大盤

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇營運管理 > Prometheus監控

  3. Prometheus監控頁面,單擊網路監控頁簽。
    CoreDNS組件監控頁簽查看監控大盤。組件監控

監控大盤說明

基於組件指標和相關PromQL繪製大盤,包括請求、響應、緩衝等內容。圖表說明如下。

大盤指標單位描述
Requests (total)請求/秒CoreDNS接收到的請求數。
Requests (success rate)百分比CoreDNS接受到的請求數響應成功率。
說明 NXDOMAIN和NOERROR的結果在此處被認為請求響應成功。
Requests (by zone)請求/秒CoreDNS接收到的請求數(按Zone)。
Requests (by qtype)請求/秒CoreDNS接收到的請求數(按解析類型)。
Requests (DO bit)請求/秒CoreDNS接收到的帶有DO標記的請求數。
Requests (size, udp)位元組CoreDNS接收到的UDP類型請求的報文大小。
Requests (size,tcp)位元組CoreDNS接收到的TCP類型請求的報文大小。
Responses (by rcode)請求/秒響應數(按狀態代碼RCODE)。
Responses (duration)響應時間長度(按99、90、50百分位)。
Responses (size, udp)位元組UDP型請求的響應時間長度(按99、50百分位)。
Responses (size, tcp)位元組TCP類型請求的響應時間長度(按99、50百分位)。
Cache (size)當前緩衝結果數。
Cache (hitrate)百分比快取命中率。

監控大盤常見異常說明

異常描述

CoreDNS接收到的請求數過高。

在監控大盤的Requests (total)可以看到當前CoreDNS整體接收到的請求數。

如果請求數突然增高,可以結合CoreDNS日誌查詢當前查詢量較高的網域名稱,結合業務判斷是否合理。關於如何分析和監控CoreDNS日誌,請參見分析和監控CoreDNS日誌。如果網域名稱請求數量增高是合理現象,建議合理調整CoreDNS副本數以及使用NodeLocal DNSCache提高叢集DNS效能。具體操作,請參見合理調整叢集CoreDNS部署狀態使用NodeLocal DNSCache

服務端異常,ServFail狀態代碼響應的數量過高。

在監控大盤的Responses (by rcode)可以看到ServFail狀態代碼的響應數目。

如果服務端出現大量ServFail異常,建議結合CoreDNS日誌中ServFail的具體網域名稱進行排查。關於如何分析和監控CoreDNS日誌,請參見分析和監控CoreDNS日誌

CoreDNS網域名稱解析響應慢。

在監控大盤的Responses (duration)可以看到網域名稱的響應時間長度。

如果應用大量使用叢集外部網域名稱,可能會出現網域名稱解析響應慢的情況。

指標清單

如果您未啟用ARMS提供的CoreDNS組件監控大盤,您也可以在自建Prometheus中監控CoreDNS。CoreDNS暴露的指標如下。
說明 本指標清單以CoreDNS 1.9.3版本為例,詳細資料,請參見CoreDNS官方文檔
指標類型描述
requests_totalCounter統計不同維度下DNS解析請求的計數。統計維度包括server、zone、proto、family、type。
request_duration_secondsHistogram統計不同維度下DNS解析請求的處理時間長度分布。統計維度包括server和zone。
request_size_bytesHistogram統計不同維度下DNS解析請求的報文大小分布。統計維度包括server、zone、proto。Histogram Bucket的閾值為0、100、200、300、400、511、1023、2047、4095、8291、16e3、32e3、48e3、64e3。單位:秒。
do_requests_totalCounter統計不同維度下帶有DO標記的DNS解析請求的計數。統計維度包括server、zone。
response_size_bytesHistogram統計不同維度下DNS解析響應的報文大小分布。統計維度包括server、zone、proto。Histogram Bucket的閾值為0、100、200、300、400、511、1023、2047、4095、8291、16e3、32e3、48e3、64e3。單位:秒。
responses_totalCounter統計不同維度下DNS解析響應的計數。統計維度包括server、zone、rcode、plugin。
panics_totalCounter統計CoreDNS發生異常(Panic)的計數。
plugin_enabledGauge統計各外掛程式的啟用狀態。統計維度包括server、zone、name。
https_responses_totalCounter統計不同維度下DoH類型的DNS解析響應的計數。統計維度包括server、status。