全部產品
Search
文件中心

AnalyticDB:一鍵診斷

更新時間:Jul 06, 2024

AnalyticDB for MySQL推出一鍵診斷功能,可針對指定時間段的叢集健全狀態發起診斷,結合監控資料、日誌資料以及庫表狀態等資訊進行聯合分析,從叢集的資源水位、負載變化、查詢SQL、運算元、儲存等多方面評估叢集的健康情況,協助您提高叢集問題排查、分析效率。

操作步驟

  1. 登入雲原生資料倉儲AnalyticDB MySQL控制台,在左上方選擇叢集所在地區。在左側導覽列,單擊叢集列表,單擊目的地組群ID。

  2. 在左側導覽列中,單擊監控資訊

  3. 拖動指標曲線或在下拉式清單中選擇待診斷的時間範圍,單擊一鍵診斷

    重要

    該功能僅支援診斷14天以內的資訊,當前支援的診斷時間範圍最長為1小時。

    系統會自動彈出診斷結果頁面,您可以在該頁面查看叢集的診斷結果。

解讀一鍵診斷報告

診斷結果包含Bad SQL檢測、異常Pattern檢測、業務指標檢測、計算層檢測、儲存層檢測等資訊,您可以根據診斷結果快速分析並解決問題。

Bad SQL檢測

Bad SQL檢測包括Stage個數TOP SQL最耗記憶體SQL最耗CPU SQL資料讀取量TOP SQL輸出資料量TOP SQL最耗時SQL等檢測指標。每個檢測指標中最多包含10條SQL,且每條SQL均按照當前檢測指標降序排列。同時,系統會在後台對最耗時SQL指標中的每條SQL完成自診斷,點擊操作列左側的image.png按鈕,可即時查看SQL診斷結果。若您需要深入分析當前查詢,可點擊操作列的診斷,跳轉至查詢詳情頁面,查看執行計畫,進行自助分析。

異常Pattern檢測

異常Pattern檢測會查詢指定時間段內指標異常的Pattern,例如某個Pattern的提交次數是否突然增多、Pattern的最大使用記憶體是否突然增加。異常Pattern檢測包括峰值記憶體查詢耗時運算元Cost輸出資料量提交次數等檢測指標,每個檢測指標中包含SQL Pattern、檢測結果詳情和Pattern的其他相關指標3個欄位,其中:

  • SQL Pattern:SQL模板,您可以根據SQL模板判斷異常Pattern的SQL語句。

  • 檢測結果詳情:異常Pattern的原因,主要包括分位值、最值的比較等資訊。

  • Pattern的其他相關指標:當前異常Pattern的峰值記憶體、運算元Cost、查詢耗時等相關指標,協助您進行綜合判斷和分析。

業務指標檢測

業務指標檢測會對叢集的各項業務指標進行檢測,包括叢集串連數檢測查詢回應時間檢測

叢集串連數檢測

叢集串連數檢測會把指定時間段內(例如:14:00-15:00)的資料與前3天每天同一時間段(14:00-15:00)的資料做對比(即同比)。若目前時間段內,百分之八十的資料點同比前3天同一時間的資料點,增長率超過百分之二十,則認為串連數同比升高,您需要關注是否有新的業務流量或異常串連等問題。

查詢回應時間檢測

查詢回應時間檢測與叢集串連數檢測的邏輯相同。即目前時間段內,若百分之八十的資料點同比前3天同一時間的資料點,增長率超過百分之二十,則認為查詢回應時間同比升高,您需要關注是否有流量升高或慢SQL等問題。

說明

增長率的計算方法為:(當前資料點-過去資料點)/過去資料點*100

計算層檢測

儲存層檢測包括異常運算元檢測節點線上狀態檢測CPU使用率傾斜檢測資源群組平均CPU使用率檢測資源群組間CPU使用率傾斜檢測時序指標相關性分析

異常運算元檢測

  • 運算元詳細資料

    計算層檢測功能,可以協助您快速尋找異常運算元(例如Join運算元、Aggregation運算元、Sort運算元、Window運算元),並按照當前檢測指標降序排列。您可以根據記憶體消耗、CPU消耗、輸入輸出資料量等欄位對異常運算元進行分析,或點擊操作列的診斷,查看運算元所屬的原始查詢執行計畫,進一步分析和確認運算元的SQL語句、來源等資訊。

  • 運算元匯總資訊

    某些情況下,多個異常運算元會導致資源消耗增大,異常運算元檢測會將最耗CPU運算元和最耗記憶體運算元2個指標進行彙總,您可以根據彙總後的結果查看各類運算元指標的最大值,確認異常運算元。

節點線上狀態檢測

Executor節點壓力較大或內部異常時,可能會導致Executor節點不健康,無法提供正常的服務,最終導致查詢失敗或查詢變慢。節點線上狀態檢測會自動檢測指定時間段內的Executor節點狀態,若Executor節點不健康,則會提示檢測異常,從而協助您判斷問題時段的異常原因。

CPU使用率傾斜檢測

檢測不同Executor節點間CPU使用率是否均衡,若所有Executor節點的最高CPU使用率比其平均CPU使用率高出1倍,且期間超過指定時間段的百分之八十,則認為Executor節點間的CPU使用率存在傾斜,建議您持續關注並排查是否存在資料扭曲。詳細資料請參見資料建模診斷

重要

檢測結果分為三個等級,包括NORMAL(正常)、WARNING(警告)、CRITICAL(重要)。檢測等級為CRITICAL時,需要您重點關注,否則會影響業務的正常運行。

資源群組平均CPU使用率檢測

檢測指定時間段內資源群組平均CPU使用率,若某個資源群組的CPU使用率超過百分之八十,且期間超過指定時間段的百分之八十,則認為該資源群組CPU使用率較高,建議您評估是否需要調整該資源群組的資源量。詳細資料請參見修改資源群組

重要

檢測結果分為三個等級,包括NORMAL(正常)、WARNING(警告)、CRITICAL(重要)。檢測等級為CRITICAL時,需要您重點關注,否則會影響業務的正常運行。

資源群組間CPU使用率傾斜檢測

檢測不同資源群組間CPU使用率是否均衡。若水位最高的資源群組CPU使用率比資源群組平均CPU使用率高出1.5倍,且期間超過指定時間段的百分之八十,則認為資源群組間CPU使用率存在傾斜,建議您評估是否需要調整不同資源群組的資源量。詳細資料請參見修改資源群組

重要

檢測結果分為三個等級,包括NORMAL(正常)、WARNING(警告)、CRITICAL(重要)。檢測等級為CRITICAL時,需要您重點關注,否則會影響業務的正常運行。

時序指標相關性分析

計算節點平均CPU使用率計算節點最大CPU使用率指標有異常時,時序指標相關性分析會檢測導致這兩個指標異常的關聯指標(包括查詢QPSBuild任務數更新TPS刪除TPS寫入TPS等指標)。您可以使用關聯指標,判斷可能導致CPU使用率升高的原因。

例如,檢測到與計算節點CPU平均使用率變化相關的指標有查詢QPS,那麼說明可能存在大量查詢從而導致計算節點CPU平均使用率升高。

重要

進行時序指標相關性分析時,建議在診斷時間中包含重要指標異常監控時間段,以便您快速掌握重要指標異常的原因。

儲存層檢測

儲存層檢測包括建表與表訪問檢測節點線上狀態檢測最大CPU使用率檢測平均CPU使用率檢測CPU使用率傾斜檢測時序指標相關性分析

建表與表訪問檢測

  • 表訪問檢測

    表訪問檢測會自動檢測指定時間段內被訪問的表,包括最巨量資料讀取量、平均資料讀取量、最巨量資料讀取耗時、平均資料讀取耗時和表訪問次數5個指標,並按照當前檢測指標降序排列。

  • 資料分布傾斜表詳情

    AnalyticDB MySQL版分區表需要選擇一個分布比較均勻的欄位作為分布欄位,在資料寫入時會根據分布欄位進行資料打散,寫入到不同的Worker節點上。選擇的分布欄位不均勻時,會導致表傾斜。表傾斜檢測功能會先定位元據量最大的表,然後再檢測這些表是否存在資料扭曲。對傾斜的表進行最佳化,可以提升查詢效能,均衡磁碟空間的資料量,降低磁碟鎖定的風險。

  • 不合理分區表詳情

    表分區不合理檢測會先定位元據量最大的表,然後再檢測這些表是否存在分區不合理的情況。

節點線上狀態檢測

Worker節點壓力較大或內部異常時,可能會導致Worker節點不健康,無法提供正常的服務,最終導致查詢失敗或者查詢變慢。節點線上狀態檢測會自動檢測指定時間段內的Worker節點狀態,若Worker節點不健康,則提示檢測異常,從而協助您判斷問題時段的異常原因。

最大CPU使用率檢測

檢測指定時間段內所有Worker節點的最大CPU使用率。若所有Worker節點的最大CPU使用率超過百分之九十,且期間超過指定時間段的百分之八十,則認為CPU使用率較高,需要您排查是否存在慢SQL。詳細資料請參見典型慢查詢

重要

檢測結果分為三個等級,包括NORMAL(正常)、WARNING(警告)、CRITICAL(重要)。檢測等級為CRITICAL時,需要您重點關注,否則會影響業務的正常運行。

平均CPU使用率檢測

檢測指定時間段內所有Worker節點的平均CPU使用率。若所有Worker節點的平均CPU使用率超過百分之八十,且期間超過指定時間段的百分之八十,則認為CPU使用率較高,需要您排查是否存在慢SQL。詳細資料請參見典型慢查詢

重要

檢測結果分為三個等級,包括NORMAL(正常)、WARNING(警告)、CRITICAL(重要)。檢測等級為CRITICAL時,需要您重點關注,否則會影響業務的正常運行。

CPU使用率傾斜檢測

檢測不同Worker節點間CPU使用率是否均衡,若所有Worker節點的最高CPU使用率比其平均CPU使用率高出1倍,且期間超過指定時間段的百分之八十,則認為Worker節點間的CPU使用率存在傾斜,建議您持續關注並排查是否存在資料扭曲。詳細資料請參見資料建模診斷

重要

檢測結果分為三個等級,包括NORMAL(正常)、WARNING(警告)、CRITICAL(重要)。檢測等級為CRITICAL時,需要您重點關注,否則會影響業務的正常運行。

時序指標相關性分析

讀寫節點平均CPU使用率讀寫節點最大CPU使用率指標存在異常時,時序指標相關性分析會檢測導致這兩個指標異常的關聯指標(包括查詢QPSBuild任務數更新TPS刪除TPS寫入TPS等指標)。您可以使用關聯指標,判斷可能導致CPU使用率升高的原因。

例如,檢測到與讀寫節點平均CPU使用率變化相關的指標有查詢QPS,那麼說明可能存在大量查詢從而導致讀寫節點CPU平均使用率升高。

重要

進行時序指標相關性分析時,建議在診斷時間中包含重要指標異常監控時間段,以便您快速掌握重要指標異常的原因。