全部產品
Search
文件中心

Container Service for Kubernetes:CoreDNS組件監控

更新時間:Oct 26, 2024

CoreDNS是ACK叢集中預設採用的DNS服務發現外掛程式。本文介紹如何查看CoreDNS組件監控大盤、常見指標異常的問題解析,以及CoreDNS組件的指標清單。

前提條件

  • 已開通ARMS。具體操作,請參見開通ARMS

  • 已安裝ack-arms-prometheus組件。具體操作,請參見管理組件

查看CoreDNS組件監控大盤

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇營運管理 > Prometheus 監控

  3. Prometheus監控頁面,單擊網路監控頁簽。

    CoreDNS組件監控頁簽查看監控大盤。組件監控

監控大盤說明

基於組件指標和相關PromQL繪製大盤,包括請求、響應、緩衝等內容。圖表說明如下。

大盤指標

單位

描述

Requests (total)

請求/秒

CoreDNS接收到的請求數。

Requests (success rate)

百分比

CoreDNS接受到的請求數響應成功率。

說明

NXDOMAIN和NOERROR的結果在此處被認為請求響應成功。

Requests (by zone)

請求/秒

CoreDNS接收到的請求數(按Zone)。

Requests (by qtype)

請求/秒

CoreDNS接收到的請求數(按解析類型)。

Requests (DO bit)

請求/秒

CoreDNS接收到的帶有DO標記的請求數。

Requests (size, udp)

位元組

CoreDNS接收到的UDP類型請求的報文大小。

Requests (size,tcp)

位元組

CoreDNS接收到的TCP類型請求的報文大小。

Responses (by rcode)

請求/秒

響應數(按狀態代碼RCODE)。

Responses (duration)

響應時間長度(按99、90、50百分位)。

Responses (size, udp)

位元組

UDP類型請求的響應報文大小的百分位元(99%、50%)。

Responses (size, tcp)

位元組

TCP類型請求的響應報文大小的百分位元(99%、50%)。

Cache (size)

當前緩衝結果數。

Cache (hitrate)

百分比

快取命中率。

監控大盤常見異常說明

異常

描述

CoreDNS接收到的請求數過高。

在監控大盤的Requests (total)可以看到當前CoreDNS整體接收到的請求數。

如果請求數突然增高,可以結合CoreDNS日誌查詢當前查詢量較高的網域名稱,結合業務判斷是否合理。關於如何分析和監控CoreDNS日誌,請參見分析和監控CoreDNS日誌。如果網域名稱請求數量增高是合理現象,建議合理調整CoreDNS副本數以及使用NodeLocal DNSCache提高叢集DNS效能。具體操作,請參見合理調整叢集CoreDNS部署狀態使用NodeLocal DNSCache

服務端異常,ServFail狀態代碼響應的數量過高。

在監控大盤的Responses (by rcode)可以看到ServFail狀態代碼的響應數目。

如果服務端出現大量ServFail異常,建議結合CoreDNS日誌中ServFail的具體網域名稱進行排查。關於如何分析和監控CoreDNS日誌,請參見分析和監控CoreDNS日誌

CoreDNS網域名稱解析響應慢。

在監控大盤的Responses (duration)可以看到網域名稱的響應時間長度。

如果應用大量使用叢集外部網域名稱,可能會出現網域名稱解析響應慢的情況。

指標清單

如果您未啟用ARMS提供的CoreDNS組件監控大盤,您也可以在自建Prometheus中監控CoreDNS。CoreDNS暴露的指標如下。

說明

本指標清單以CoreDNS 1.9.3版本為例,詳細資料,請參見CoreDNS官方文檔

指標

類型

描述

requests_total

Counter

統計不同維度下DNS解析請求的計數。統計維度包括server、zone、proto、family、type。

request_duration_seconds

Histogram

統計不同維度下DNS解析請求的處理時間長度分布。統計維度包括server和zone。

request_size_bytes

Histogram

統計不同維度下DNS解析請求的報文大小分布。統計維度包括server、zone、proto。Histogram Bucket的閾值為0、100、200、300、400、511、1023、2047、4095、8291、16e3、32e3、48e3、64e3。單位:秒。

do_requests_total

Counter

統計不同維度下帶有DO標記的DNS解析請求的計數。統計維度包括server、zone。

response_size_bytes

Histogram

統計不同維度下DNS解析響應的報文大小分布。統計維度包括server、zone、proto。Histogram Bucket的閾值為0、100、200、300、400、511、1023、2047、4095、8291、16e3、32e3、48e3、64e3。單位:秒。

responses_total

Counter

統計不同維度下DNS解析響應的計數。統計維度包括server、zone、rcode、plugin。

panics_total

Counter

統計CoreDNS發生異常(Panic)的計數。

plugin_enabled

Gauge

統計各外掛程式的啟用狀態。統計維度包括server、zone、name。

https_responses_total

Counter

統計不同維度下DoH類型的DNS解析響應的計數。統計維度包括server、status。