CloudOps Orchestration Service (OOS)支援建立雲產品監控指標閾值警示營運任務。當我們監控到雲產品資源的監控指標達到指定的閾值後,執行指定的模板,進行警示營運。警示營運任務會一直執行並監控,直到您取消它。比如您可以在監控到磁碟利用率超過80%時清理日誌目錄下的檔案。
請參考支援的雲產品主要監控項 雲產品主要監控項。
建立警示營運任務包括以下步驟:
設定警示規則
選擇模板
設定警示觸發的模板參數
設定警示規則
欄位 | 是否必填 | 說明 |
產品類型 | 是 | 從下拉框選擇,只能單選。 |
規則描述 | 是 | 閾值警示的規則。 |
觸發沉默周期 | 否 | 當監控資料持續超過警示規則閾值時,每個沉默周期內只觸發1次,預設為1天。 |
生效時間 | 否 | 警示觸發的生效時間範圍,預設全天生效。 |
閾值警示規則描述包含以下輸入欄位:
監控項名稱
監控資料的彙總周期
統計次數
統計方法
比較子
閾值
選擇模板
選擇在警示發生時需要執行的模板。
設定警示觸發的模板參數
模板參數中可以填入固定值,也可以從警示訊息體選擇參數。當選擇固定參數時,總是使用固定參數執行模板。選擇從警示訊息體選擇參數時,可以配置jq運算式,從警示訊息體中提取欄位。
從警示訊息體中提取欄位,使用$開頭,加上jq運算式。以ECS的cpu_total的警示訊息為例,其格式如下:
{
"Average": 50.15,
"Maximum": 50.75,
"Minimum": 49.75,
"curLevel": "INFO",
"instanceId": "i-bp1gn7od******qh5r12",
"ruleName": "alarmtrigger-130920******0047-exec-de81413d******71b537",
"timestamp": 1575970560000,
"userId": "130920******0047"
}
如果想提取出發生警示的執行個體ID,可以使用運算式$.instanceId
。
警示訊息體中有以下固定欄位可以提取:
提取運算式 | 說明 | 樣本值 |
$.timestamp | 警示時間戳記。 | 1575970560000,單位為毫秒 |
$.curLevel | 警示層級。 | INFO |
$.userId | 雲帳號Id。 | 130920**0047 |
$.dimensionFieldName | 其中OK代表警示恢複正常。監控維度值。dimensionFieldName請替換成監控項維度欄位名。比如ECS執行個體的CPU是按照執行個體ID維度監控的,可以通過 | 無 |
從警示訊息體選擇參數的樣本:
使用固定參數,和普通模板參數設定方法一致。