全部產品
Search
文件中心

ApsaraDB RDS:查看RDS MySQL監控指標

更新時間:Jun 19, 2024

在進行資料庫日常維護或處理資料庫故障時,查看資料庫相關的效能指標是必不可少的步驟。RDS MySQL的標準監控提供了豐富的效能監控指標,以及強大的診斷能力,能夠及時探索資料庫的異常並提供相應的治理方案。並且提供了常見資料庫問題情境的診斷視圖,協助您快速定位問題。

功能說明

RDS MySQL升級了標準監控,融合了資料庫自治服務DAS(Database Autonomy Service)的效能趨勢,為使用者提供更豐富的功能。

說明

資料庫自治服務DAS是一種基於機器學習和專家經驗實現資料庫自感知、自修複、自最佳化、自營運及自安全的雲端服務,協助您消除人工操作引發的服務故障,有效保障資料庫服務的穩定、安全及高效。詳情請參見資料庫自治服務DAS簡介

  • 自訂視圖:標準監控提供更加豐富的效能監控指標,支援用於自訂視圖,自主選擇指標進行監控。

    說明

    監控指標對應的績效參數請參見績效參數表

  • 常見問題的診斷視圖:提供了記憶體OOM診斷唯讀執行個體延遲診斷空間滿問題診斷CPU抖動診斷大事務識別診斷等視圖,您可以根據實際需要選擇對應的診斷視圖,快速定位問題。

  • 自動診斷:標準監控提供強大的診斷能力,能及時探索資料庫執行個體產生的事件,並對其進行自動診斷,輸出根因分析和建議。

  • 手動診斷:標準監控支援自主選擇時段進行手動診斷。

查看標準監控

  1. 訪問RDS執行個體列表,在上方選擇地區,然後單擊目標執行個體ID。
  2. 在左側導覽列單擊監控與警示

  3. 標準監控頁面,根據需要選擇標準視圖自訂視圖

    • 標準視圖頁簽,選取查詢時間,查看選定時間範圍內的指標趨勢和各類事件的統計資訊。

      單擊添加趨勢對比,查看不同時間段內相同指標的效能趨勢對比。添加趨勢對比

      說明

      選擇時間範圍時,結束時間需晚於開始時間,且開始時間和結束時間的間隔不能超過30天。

      • 在事件統計地區,單擊查看詳情,可以跳轉到效能事件頁面,查看執行個體例外狀況事件、最佳化事件和Auto Scaling事件的詳細資料,包括計劃執行、正在執行和已執行完成的事件。

      • 在指標趨勢圖地區:

        • 系統在傳統檢視的基礎上提供了常見問題情境的診斷視圖,您可以通過這些視圖中主要指標的趨勢,快速定位問題原因。

          當前提供的診斷視圖包括:記憶體OOM診斷唯讀執行個體延遲診斷空間滿問題診斷CPU抖動診斷大事務識別診斷,請根據實際需要選擇對應的診斷視圖。診斷視圖的使用請參見診斷視圖使用指南

          說明

          單擊每個監控項後的指標查看各個監控項包含的指標。

          選擇視圖

        • 傳統檢視視圖中,單擊更多指標,可以選擇需要查看效能趨勢的指標。

        • 傳統檢視視圖中,選擇需要展示的事件層級,當檢測到對應事件時,系統會在MySQL CPU/記憶體利用率會話串連的趨勢圖中展示這些事件。

          單擊趨勢圖中的事件,在事件列表的事件詳情中查看診斷結果。

          事件監控

        • 在任意指標趨勢圖中,使用滑鼠拖拽選擇一段時間,可以對選擇時段進行診斷

        • 單擊某個監控指標趨勢圖中的常見問題,查看造成該指標異常的常見原因。

        • 單擊某個監控指標趨勢圖中的詳情,放大該監控指標的趨勢圖,並且可以修改時間查看該監控指標不同時間的變化趨勢。

    • 自訂視圖頁簽,單擊新增監控大盤,通過自訂監控大盤,查看需要進行監控的指標趨勢。

      • 單擊添加節點和指標監控,為監控大盤選擇需要監控的節點和指標‪。

      • 您可以根據需要,選擇不同的指標展示方式,合并展示分開展示

        • 當選擇合并展示時,多個指標在同一個趨勢圖表進行展示。

        • 當選擇分開展示時,單獨展示每個指標的趨勢圖。

          • 通過圖表布局,您可以設定每行顯示監控指標趨勢圖的數量。

          • 單擊某個監控指標趨勢圖中的詳情,放大該監控指標的趨勢圖,並且可以修改時間查看該監控指標不同時間的變化趨勢。

診斷視圖使用指南

記憶體OOM診斷

內容OOM診斷

通過記憶體OOM診斷視圖提供的監控指標,分析處理記憶體OOM(Out of Memory)問題。

  • Memory Usage

    • InnoDB Buffer Pool使用率不變,記憶體使用量率長時間(例如超過7天)緩慢持續上漲時,可能是記憶體泄露導致。

    • 記憶體突然上漲,InnoDB Buffer Pool使用率不變時,可能是突增業務導致。

    • 記憶體和InnoDB Buffer Pool同步增長時,InnoDB Buffer Pool被逐步填充,屬於正常情況。

  • Resident Memory:查看記憶體大小。

  • Open filesTemp File SizeTemp Disk TablesSort Rows:查看消耗記憶體的常見指標。

記憶體的增長和業務指標正相關,大部分情況下,導致記憶體突增的SQL還未運行完成就因OOM(Out of Memory)無法追溯,因此建議:

  • 檢查業務日誌,判斷記憶體突增的原因。

  • 升級記憶體規格,並且開啟SQL洞察和審計,在記憶體突增時查看SQL的執行時間來判斷記憶體突增的原因。

唯讀執行個體延遲診斷

唯讀執行個體延遲診斷

通過唯讀執行個體延遲診斷視圖提供的監控指標,分析處理唯讀執行個體延遲問題。

  • Active Session:查看是否有MDL鎖阻塞的情況。

    通常大量資料的查詢會讓DDL無法擷取MDL鎖,此時DDL會阻塞其他會話,導致串連數堆積。

  • Resident Memory:查看記憶體大小。

  • DML Rows ProcessedPages RequestedDML/DDL OperationsTemp Disk Space Used:查看常見的業務指標。

  • Replication Delay:查看延遲指標。

空間滿問題診斷

空間滿問題診斷

通過空間滿問題診斷視圖提供的監控指標,分析處理空間佔滿問題。

查看執行個體佔用儲存空間的檔案類型和變化趨勢,常見佔用儲存的指標如下:

  • 資料檔案(user_data_size):可以通過空間分析查看各資料庫、表的空間佔用情況,根據實際情況擴容或者刪除不需要的資料。請參見資料檔案導致執行個體空間滿的解決辦法處理資料檔案。

  • 臨時檔案(temp_file_size):MySQL執行個體可能會由於查詢語句的排序、分組、關聯表產生的暫存資料表檔案,或者大事務提交前產生的binlog cache檔案佔用空間。請參見臨時檔案導致執行個體空間滿的解決辦法處理臨時檔案。

  • Binlog日誌(binlog_size):MySQL執行個體可能會由於大事務快速產生Binlog檔案佔用空間。請參見MySQL Binlog檔案導致執行個體空間滿的解決辦法處理Binlog日誌。

    說明

    如果業務側訂閱了資料庫的Binlog,也可能導致Binlog未及時清理而佔用空間。

  • Undo日誌(undo_log_size):一般情況下,長時間執行的查詢導致Undo日誌無法被清理。請檢查是否有長時間執行且未結束的查詢語句。

    說明

    MySQL 5.6及以前的版本,Undo日誌沒有獨立的資料表空間。

  • 慢日誌(slowlog_size):慢日誌佔用空間過高時,建議在業務低峰期使用truncate命令進行清理。

    說明

    MySQL 5.7的20210630版本,MySQL 8.0的20210930版本開始支援truncate命令。

  • 常規日誌(general_log_size):執行個體的錯誤記錄檔、Performance Agent日誌、recover日誌大小之和 。這部分日誌總量一般都會在1 GB以內,基本保持穩定,如果大小明顯超過這個範圍,請提交工單聯絡產品解決。該指標是MySQL核心定時輸出的核心指標資料,並非是MySQL的general_log的日誌大小。

CPU抖動診斷

CPU抖動診斷

通過CPU抖動診斷視圖提供的監控指標,分析處理CPU抖動問題,與CPU使用率強關聯的指標有兩類:

  • 業務指標:

    • Page Request:通常情況下,Buffer Pool請求數的趨勢和CPU使用率同頻波動。

    • Rows Processed:查看CPU使用率和系統處理行數的關係,判斷CPU使用率變化時是否存在突增的行數。

    • Queries:查看CPU使用率變化時,主要執行的SQL語句類型。

  • 串連數:

    Thread Running:高並發會導致CPU使用率變高;MDL堆積或者行鎖會導致串連數堆積,進而影響CPU使用率。

CPU抖動的常見原因:

  • 業務指標(Page Request/Rows Processed)發生變化,導致CPU使用率同步變化,此時可以選中CPU使用率變化的時間段,執行診斷擷取詳細的根因分析結果。

  • 活躍串連數增加引起CPU消耗,此時請從業務側進行排查。

大事務識別診斷

大事務識別診斷

通過大事務識別診斷視圖提供的監控指標,分析處理大事務問題。

  • Threads ConnectedTemp File SizeBinlog空間:查看判斷是否為大事務的三個核心指標。當出現如下情況時,可判斷為資料庫存在大事務:

    • 活躍會話堆積。

    • 臨時空間先增加然後減少。

    • 臨時空間減少後Binlog空間同步增加。

  • Rows ProcessedLogical Page WriteQueries per Second:判斷大事務是什麼類型。

    例如查詢很少,但刪除的行數很多時,表明存在刪除資料的大事務。

大事務會引起Binlog寫入阻塞:

  • 當執行個體有大事務時,暫存資料表空間(binlog cache)先逐步增加,然後保持平穩。

  • 當暫存資料表空間平穩時,Binlog空間增加;由於Binlog寫入是全域串列,其他事務會被阻塞,導致串連數開始堆積。

  • 當執行個體為高可用系列時,主執行個體和備執行個體的HA組件探測語句也被阻塞,執行個體會直接發生主備切換。

建議您將大事務拆分為小事務分別執行。例如在delete語句中增加where條件子句,限制每次刪除的資料量,將一次刪除操作拆分為多次資料量較小的刪除操作進行。

相關文檔