在使用MaxCompute過程中,您可能需要通過監測MaxCompute訂用帳戶資源、隨用隨付作業消費,瞭解資源的健全狀態,以便及時升級資源或規劃作業。您也可以通過設定警示規則,當資源狀況符合警示規則時,CloudMonitor自動發送警示通知,便於您及時獲悉資源的健全狀態。
監控警示方案
監控指標
MaxCompute產品支援的監控指標類型及對應監控項如下。
監控指標類型 | 監控指標分類 | 監控項 | 描述 |
MaxCompute-訂用帳戶計算Quota | level1 | 1級配額CPU使用率 | 一級Quota的CPU使用量佔總量(預留CU+彈性預留CU)的百分比。(單位:%,每分鐘採集一次資料)。 |
1級配額CPU使用量 | 一級Quota的CPU總使用量。(單位:core,每分鐘採集一次資料)。 | ||
1級配額MEM使用率 | 一級Quota的記憶體使用量量占記憶體總量(預留+彈性預留)的百分比。(單位:%,每分鐘採集一次資料)。 | ||
1級配額MEM使用量 | 一級Quota的記憶體使用量量。(單位:MB,每分鐘採集一次資料)。 | ||
level2 | 2級配額CPU使用率 | 二級Quota CPU使用量佔總量(預留Min CU+彈性預留CU)的百分比。(單位:%,每分鐘採集一次資料)。 | |
2級配額CPU使用量 | 二級Quota的CPU總使用量。(單位:core,每分鐘採集一次資料)。 | ||
2級配額MEM使用率 | 二級Quota的記憶體使用量量占記憶體總量(預留Min+彈性預留)的百分比。(單位:%,每分鐘採集一次資料)。 | ||
2級配額MEM使用量 | 二級Quota的記憶體使用量量。(單位:MB,每分鐘採集一次資料)。 | ||
2級配額作業等待數 | 二級Quota作業等待數。(單位:count,每分鐘採集一次資料)。 | ||
MaxCompute-隨用隨付(併入MaxCompute-通用) | 不涉及 | 隨用隨付日作業消費 | 以專案為單位,單日累計SQL、MapReduce作業消費金額的監控指標。您可以設定最大日消費金額(USD),達到或超過這個閾值會觸發警示。 |
隨用隨付月作業消費 | 以專案為單位,單月累計SQL、MapReduce作業消費金額的監控指標。您可以設定最大月消費金額(USD),達到或超過這個閾值會觸發警示。 | ||
MaxCompute-通用 | Tunnel | Tunnel下載流量_專案層級 | 以專案為單位的即時下載流量監控指標。您可以設定最大下載流量(bytes/min),達到或超過這個閾值會觸發警示。 |
Tunnel上傳流量_專案層級 | 以專案為單位的即時上傳流量監控指標。您可以設定最大上傳流量(bytes/min),達到或超過這個閾值會觸發警示。 | ||
Tunnel日累計下載資料量_專案層級 | 以專案為單位,單日該專案累計下載的資料量監控指標。您可以設定最巨量資料量(MB),達到或超過這個閾值會觸發警示。 | ||
Tunnel日累計上傳資料量_專案層級 | 以專案為單位,單日該專案累計上傳的資料量監控指標。您可以設定最巨量資料量(MB),達到或超過這個閾值會觸發警示。 | ||
Tunnel當前並發數(Slot)_專案層級 | 以專案為單位,選定的專案當前使用的並發數(Slot),達到或超過這個閾值會觸發警示。 | ||
Tunnel當前並發數(Slot)_租戶層級 | 以租戶為單位,選定的租戶當前使用的並發數(Slot),達到或超過這個閾值會觸發警示。 | ||
作業 | 作業運行時間長度 | 以MaxCompute專案為單位,監控專案下的所有作業。如果某個作業的已耗用時間(包含等待時間)超過設定的閾值,系統會按照配置的警示規則將警示資訊發送至警示連絡人。 重要 運行時間長度小於1分鐘的作業無法監控到。 | |
作業運行時間長度_SQL類型 | 以MaxCompute專案為單位,監控專案下的所有SQL類型作業。如果某個SQL作業的已耗用時間(包含等待時間)超過設定的閾值,系統會按照配置的警示規則將警示資訊發送至警示連絡人。 重要 運行時間長度小於1分鐘的作業無法監控到。 | ||
Storage | 標準儲存大小_專案層級 | 專案的標準儲存大小。(單位:GB,每小時採集一次資料)。 | |
低頻儲存大小_專案層級 | 專案的低頻儲存大小。(單位:GB,每小時採集一次資料)。 | ||
低頻儲存最近30天訪問量百分比_專案層級 | 值為: | ||
長期儲存大小_專案層級 | 專案的長期儲存大小。(單位:GB,每小時採集一次資料)。 | ||
長期儲存最近180天訪問量百分比_專案層級 | 值為: |
監控大盤配置
在左側導覽列,選擇
。在自訂大盤頁面,單擊建立大盤並添加圖表。
在添加圖表面板,選擇圖表類型和監控項。
選項
參數
描述
選擇圖表類型
折線圖
大盤提供了折線圖、面積圖、TopN表格、熱力圖和餅圖5種類型,您可以根據需要自行選擇。
面積圖
TopN表格
熱力圖
餅圖
選擇監控項
產品名稱
MaxCompute產品的監控指標類型,詳情請參見監控指標。
監控項
在監控項下拉式清單中選擇監控項。MaxCompute產品的監控項詳情請參見監控指標。
資源
在資源下拉式清單中選擇需要監控的地區和專案(可多選)。
配置完成後,單擊確定,即可在自訂大盤頁面查看監控項的圖表。
說明關於添加監控圖表的操作,請參見管理自訂監控大盤中的監控圖表。
警示規則配置
您可以對監控指標中的各監控項設定警示規則。
以資源群組監控警示為例,設定當MaxCompute訂用帳戶某個配額組CU或記憶體使用量率超過一定值時,需要警示。假設需要監控的資源群組配置了150 CU,用滿1核為100%,最大使用量是15000%,設定監控閾值為大於12000%則警示。如果您收到警示,表示資源群組即將滿負荷,繼續提交作業有可能出現排隊的情況。您可以根據業務規劃,及時升配資源群組或者合理規劃作業。基於此情境,警示規則配置步驟如下:
在左側導覽列,單擊
。在警示規則頁面,單擊建立警示規則。
在建立警示規則頁面,基於情境配置警示規則相關資訊,詳細參數配置請參見建立警示規則。配置警示連絡人詳情請參見建立警示連絡人或警示連絡人群組。
以前面提供的情境為例,您需要配置的關鍵參數如下:
參數
描述
產品
在下拉式清單選擇MaxCompute-訂用帳戶quota組資源。
資源範圍
在下拉式清單選擇執行個體。
關聯資源
地區:在左上方下拉式清單選擇MaxCompute專案所在地區。
配額組:在配額組列表選擇待監控的配額組名稱。配額組詳情請參見計算資源-Quota管理(新版)。
添加規則
規則名稱:設定警示規則的名稱。
指標類型:選擇單指標。
監控指標:在下拉式清單選擇預付費配額組CPU使用量。
說明您還可以監控作業等待數,當CPU使用量高,且作業等待數多,時間連續N個周期時,則可能需要人工介入進行資源幹預。
單擊確認,完成警示規則配置。
相關文檔
對隨用隨付的計算任務的消費進行限制並警示,請參見消費控制。