全部產品
Search
文件中心

MaxCompute:監控警示

更新時間:Aug 03, 2024

在使用MaxCompute過程中,您可能需要通過監測MaxCompute訂用帳戶資源、隨用隨付作業消費,瞭解資源的健全狀態,以便及時升級資源或規劃作業。您也可以通過設定警示規則,當資源狀況符合警示規則時,CloudMonitor自動發送警示通知,便於您及時獲悉資源的健全狀態。

監控警示方案

MaxCompute支援通過如下方式實現監控警示功能:

  • 通過阿里雲監控服務配置監控指標,對訂用帳戶資源、即時作業消費進行監控:

    • 通過監控大盤,即時觀察監控圖表,瞭解各監控指標的即時變化。詳情請參見監控大盤配置

    • 自訂警示規則並添加警示連絡人,當指標項達到或超過您設定的閾值時,CloudMonitor服務會自動向您設定的連絡人發送警示通知。警示通知方式支援電話、簡訊、郵件和DingTalk機器人。詳情請參見警示規則配置

  • 通過MaxCompute用戶端,對單SQL消費進行監控。更多SQL消費監控資訊,請參見單SQL消費限制

監控指標

MaxCompute產品支援的監控指標類型及對應監控項如下。

監控指標類型

監控指標分類

監控項

描述

MaxCompute-訂用帳戶計算Quota

level1

1級配額CPU使用率

一級Quota的CPU使用量佔總量(預留CU+彈性預留CU)的百分比。(單位:%,每分鐘採集一次資料)。

1級配額CPU使用量

一級Quota的CPU總使用量。(單位:core,每分鐘採集一次資料)。

1級配額MEM使用率

一級Quota的記憶體使用量量占記憶體總量(預留+彈性預留)的百分比。(單位:%,每分鐘採集一次資料)。

1級配額MEM使用量

一級Quota的記憶體使用量量。(單位:MB,每分鐘採集一次資料)。

level2

2級配額CPU使用率

二級Quota CPU使用量佔總量(預留Min CU+彈性預留CU)的百分比。(單位:%,每分鐘採集一次資料)。

2級配額CPU使用量

二級Quota的CPU總使用量。(單位:core,每分鐘採集一次資料)。

2級配額MEM使用率

二級Quota的記憶體使用量量占記憶體總量(預留Min+彈性預留)的百分比。(單位:%,每分鐘採集一次資料)。

2級配額MEM使用量

二級Quota的記憶體使用量量。(單位:MB,每分鐘採集一次資料)。

2級配額作業等待數

二級Quota作業等待數。(單位:count,每分鐘採集一次資料)。

MaxCompute-隨用隨付(併入MaxCompute-通用

不涉及

隨用隨付日作業消費

以專案為單位,單日累計SQL、MapReduce作業消費金額的監控指標。您可以設定最大日消費金額(USD),達到或超過這個閾值會觸發警示。

隨用隨付月作業消費

以專案為單位,單月累計SQL、MapReduce作業消費金額的監控指標。您可以設定最大月消費金額(USD),達到或超過這個閾值會觸發警示。

MaxCompute-通用

Tunnel

Tunnel下載流量_專案層級

以專案為單位的即時下載流量監控指標。您可以設定最大下載流量(bytes/min),達到或超過這個閾值會觸發警示。

Tunnel上傳流量_專案層級

以專案為單位的即時上傳流量監控指標。您可以設定最大上傳流量(bytes/min),達到或超過這個閾值會觸發警示。

Tunnel日累計下載資料量_專案層級

以專案為單位,單日該專案累計下載的資料量監控指標。您可以設定最巨量資料量(MB),達到或超過這個閾值會觸發警示。

Tunnel日累計上傳資料量_專案層級

以專案為單位,單日該專案累計上傳的資料量監控指標。您可以設定最巨量資料量(MB),達到或超過這個閾值會觸發警示。

Tunnel當前並發數(Slot)_專案層級

以專案為單位,選定的專案當前使用的並發數(Slot),達到或超過這個閾值會觸發警示。

Tunnel當前並發數(Slot)_租戶層級

以租戶為單位,選定的租戶當前使用的並發數(Slot),達到或超過這個閾值會觸發警示。

作業

作業運行時間長度

以MaxCompute專案為單位,監控專案下的所有作業。如果某個作業的已耗用時間(包含等待時間)超過設定的閾值,系統會按照配置的警示規則將警示資訊發送至警示連絡人。

重要

運行時間長度小於1分鐘的作業無法監控到。

作業運行時間長度_SQL類型

以MaxCompute專案為單位,監控專案下的所有SQL類型作業。如果某個SQL作業的已耗用時間(包含等待時間)超過設定的閾值,系統會按照配置的警示規則將警示資訊發送至警示連絡人。

重要

運行時間長度小於1分鐘的作業無法監控到。

Storage

標準儲存大小_專案層級

專案的標準儲存大小。(單位:GB,每小時採集一次資料)。

低頻儲存大小_專案層級

專案的低頻儲存大小。(單位:GB,每小時採集一次資料)。

低頻儲存最近30天訪問量百分比_專案層級

值為:(當前專案最近30天累計訪問低頻儲存量 + 當前專案最近30天累計切換低頻儲存量) / 當前專案最新低頻儲存量

長期儲存大小_專案層級

專案的長期儲存大小。(單位:GB,每小時採集一次資料)。

長期儲存最近180天訪問量百分比_專案層級

值為:(當前專案最近180天累計訪問長期儲存量 + 當前專案最近180天累計切換長期儲存量) / 當前專案最新長期儲存量

您可以對監控項配置監控大盤或警示規則,操作詳情請參見監控大盤配置警示規則配置

監控大盤配置

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇可視化(Dashboard) > 自訂大盤

  3. 自訂大盤頁面,單擊建立大盤並添加圖表。

  4. 添加圖表面板,選擇圖表類型和監控項。

    選項

    參數

    描述

    選擇圖表類型

    折線圖

    大盤提供了折線圖、面積圖、TopN表格、熱力圖和餅圖5種類型,您可以根據需要自行選擇。

    面積圖

    TopN表格

    熱力圖

    餅圖

    選擇監控項

    產品名稱

    MaxCompute產品的監控指標類型,詳情請參見監控指標

    監控項

    監控項下拉式清單中選擇監控項。MaxCompute產品的監控項詳情請參見監控指標

    資源

    資源下拉式清單中選擇需要監控的地區和專案(可多選)。

  5. 配置完成後,單擊確定,即可在自訂大盤頁面查看監控項的圖表。

    說明

    關於添加監控圖表的操作,請參見管理自訂監控大盤中的監控圖表

警示規則配置

您可以對監控指標中的各監控項設定警示規則。

以資源群組監控警示為例,設定當MaxCompute訂用帳戶某個配額組CU或記憶體使用量率超過一定值時,需要警示。假設需要監控的資源群組配置了150 CU,用滿1核為100%,最大使用量是15000%,設定監控閾值為大於12000%則警示。如果您收到警示,表示資源群組即將滿負荷,繼續提交作業有可能出現排隊的情況。您可以根據業務規劃,及時升配資源群組或者合理規劃作業。基於此情境,警示規則配置步驟如下:

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,單擊警示服務 > 警示規則

  3. 警示規則頁面,單擊建立警示規則

  4. 建立警示規則頁面,基於情境配置警示規則相關資訊,詳細參數配置請參見建立警示規則。配置警示連絡人詳情請參見建立警示連絡人或警示連絡人群組

    以前面提供的情境為例,您需要配置的關鍵參數如下:

    參數

    描述

    產品

    在下拉式清單選擇MaxCompute-訂用帳戶quota組資源

    資源範圍

    在下拉式清單選擇執行個體

    關聯資源

    • 地區:在左上方下拉式清單選擇MaxCompute專案所在地區。

    • 配額組:在配額組列表選擇待監控的配額組名稱。配額組詳情請參見計算資源-Quota管理(新版)

    添加規則

    • 規則名稱:設定警示規則的名稱。

    • 指標類型:選擇單指標

    • 監控指標:在下拉式清單選擇預付費配額組CPU使用量

      說明

      您還可以監控作業等待數,當CPU使用量高,且作業等待數多,時間連續N個周期時,則可能需要人工介入進行資源幹預。

  5. 單擊確認,完成警示規則配置。

相關文檔

對隨用隨付的計算任務的消費進行限制並警示,請參見消費控制