執行個體的診斷報告從效能水位、訪問傾斜情況、慢日誌等多方面評估執行個體的健康情況,協助您快速定位執行個體的異常情況。
前提條件
診斷報告組成
執行個體基本資料:展示執行個體的ID、規格、類型及可用性區域等基本資料。
健康情況概要:展示健康得分及具體的扣分說明。
效能水位:展示執行個體關鍵效能指標的統計資訊及狀態。
TOP 10 節點慢請求:展示發生慢請求次數排名前十的資料節點和對應的慢請求資訊。
執行個體基本資料
展示執行個體的ID、規格、類型及地區資訊。
健康情況概要
展示執行個體診斷的結果,並對健康狀態進行評分(滿分為100分)。如果未達滿分,您需要關注展示的診斷項和詳細資料。
效能水位
展示執行個體關鍵效能指標的統計資訊及狀態,您需要特別關注狀態為危險的效能指標。
效能指標 | 危險閾值 | 影響 | 可能的原因及排查方法 |
CPU使用率 | 60% | CPU使用率持續升高將影響執行個體整體的輸送量和用戶端應用的響應速度,極端情況下甚至會導致應用不可用。 | 可能的原因:
排查方法,請參見排查CPU使用率高的問題。 |
記憶體使用量率 | 80% | 記憶體使用量率持續升高可能導致Key頻繁被逐出、回應時間上升、QPS(每秒訪問次數)不穩定等問題,進而影響業務運行。 | 可能的原因:
排查方法,請參見排查記憶體使用量率高的問題。 |
串連數使用率(資料節點) | 80% | 資料節點的串連數被打滿後將會導致連線逾時或失敗。 | 可能的原因:
排查方法,請參見執行個體會話。 |
網路入口流量 | 80% | 當網路的入口或出口超過該規格的最大頻寬時,應用服務的效能將會受到影響。 | 可能的原因:
排查方法,請參見排查流量使用率高的問題。 |
網路出口流量 | 80% |
當您的執行個體為叢集架構或讀寫分離架構時,系統還會綜合分析上述效能指標,來衡量執行個體整體訪問的均衡度並體現在診斷報告中。訪問傾斜的判斷標準、可能的原因及排查方法請參見下表。
如果診斷報告中提示某個效能指標發生了訪問傾斜,您需要關注具體的傾斜節點。
訪問傾斜判斷標準 | 可能的原因 | 排查方法 |
同時滿足下述條件:
|
|
TOP 10 節點慢請求
展示發生慢請求次數排名前十的資料節點,並展示對應的慢請求資訊,統計來源如下:
系統審計日誌中儲存的資料節點慢日誌(僅保留4天)。
資料節點本身記錄的慢日誌(僅儲存最近的1024條)。您可以通過redis-cli串連執行個體並執行SLOWLOG GET查看。
您可以根據展示的慢請求具體命令分析是否存在不合理的命令,不同原因對應的解決方案如下。
原因 | 解決方案 |
執行時間複雜度為O(N)或更高的高消耗命令引起,例如keys *命令。 | 評估並禁用高風險命令和高消耗命令,例如FLUSHALL、KEYS、HGETALL等。具體操作,請參見禁用高風險命令。 |
讀寫到資料節點中的大Key引起。 | 對大Key進行分析和評估,具體操作,請參見離線全量Key分析,然後從業務方向對大Key進行拆分。 |