Realtime ComputeFlink版支援使用CloudMonitor(免費監控服務)或ARMS提供監控警示服務,配置作業指標或事件監控警示,便於您及時發現並處理異常。本文為您介紹使用不同監控服務時如何配置監控警示。
使用限制
部署時提交至Session叢集的Flink作業不支援配置監控警示。
批作業暫不支援配置監控警示。
配置引導
使用免費監控服務(CloudMonitor)時,您需要跳轉到CloudMonitor控制台進行指標和事件警示配置。
CloudMonitor指標警示配置(支援單個作業和批量警示配置)
CloudMonitor事件警示配置(支援作業和工作流程事件警示配置)
使用ARMS監控服務時:
您可以直接在Realtime Compute開發控制台對單個作業配置指標警示(支援6個監控指標,詳情請參見Realtime Compute開發控制台指標警示配置),以及作業失敗警示(詳情請參見Realtime Compute開發控制台事件警示配置)。
其他監控指標警示可以在ARMS控制台通過靜態閾值和PromQL文法自訂配置,支援單個作業和批量警示配置,詳情請參見ARMS指標警示配置。
您可以在CloudMonitor控制台訂閱作業事件警示(僅支援ECS宕機事後處理和ECS主動營運影響事件)和工作流程事件警示,詳情請參見CloudMonitor事件警示配置,暫不支援其他事件警示配置。
配置指標警示
CloudMonitor
僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示。
單個作業配置
登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台。
在
頁面,單擊目標作業名稱。在監控警示頁簽,單擊訂閱指標警示,跳轉到CloudMonitor控制台完成相關配置。
在CloudMonitor控制台設定規則描述面板填寫參數後,單擊確定。
指標類型選擇為簡單指標或組合指標,在維度部分,您可以選擇namespace(Flink專案空間名稱)和deploymentID(對應Flink作業部署詳情頁簽的部署作業ID),指定需要監控的作業,其他參數詳情請參見建立警示規則。
說明下拉式清單僅顯示有監控資料的namespace和deploymentID,無資料時您可以手動填寫。
在建立警示規則面板,配置其他警示參數。
通常資源範圍執行個體已預設關聯資源為當前作業對應工作空間ID(如何查看工作空間ID等資訊?),警示規則建立後,關聯資源不可更改。其他參數詳情請參見建立警示規則。
單擊確認。
作業大量設定
在左側導覽列,選擇
。單擊建立警示規則,配置相關參數,詳情請參見建立警示規則。
參數
說明
產品
Realtime ComputeFlink版
資源範圍
全部資源:警示規則作用於Realtime ComputeFlink版全部資源。
執行個體:警示規則作用於Realtime ComputeFlink版指定工作空間。單擊添加執行個體,選擇目標地區下的工作空間後,單擊確認。
規則描述
單擊添加規則 > 簡單指標或組合指標,進入設定規則描述面板,參數詳情請參見建立警示規則。
其中,在維度部分,您可以配置namespace(Flink專案空間名稱)和deploymentID(對應Flink作業部署詳情頁簽的部署作業ID),當僅填寫namespace時表示對當前專案空間下所有作業生效,當均不填寫時表示對當前工作空間下所有作業生效。
說明namespace和deploymentID下拉式清單無資料時,您可以手動填寫。
Realtime Compute開發控制台
Realtime Compute開發控制台僅支援查看近48小時內警示事件,更長時間的警示事件請在ARMS控制台警示管理中查看。
目前Realtime Compute開發控制台僅支援單個作業警示配置。您可以針對目標作業建立新的警示規則,也可以在建立警示規則模板後,直接使用已有規則模板為目標作業建立警示,加快配置監控警示的效率。
進入警示配置入口。
登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台。
在
頁面,單擊目標作業名稱。單擊警示配置頁簽。
在警示規則頁簽,選擇
。您也可以選擇
,通過添加並使用警示模板,可以直接建立警示規則或基於模板進行簡單修改後建立警示規則,加快配置監控警示的效率。填寫警示規則資訊。
類別
參數
描述
具體規則
規則名稱
以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為3~64個字元。
描述
規則的備忘資訊。
內容
配置觸發警示的條件內容,配置完成後會每間隔指定時間,對指定的指標值與閾值進行計算比較,計算結果滿足則自動警示。
指標:
Restart Count in 1 Minute:1分鐘內Job Manager重啟次數,單位為次。
Checkpoint Count in 5 Minutes:5分鐘內Checkpoint成功次數,單位為個。
Emit Delay:業務延時,即資料發生時間與資料離開Source運算元的時間差值,單位為秒。
重要資料發生時間依賴於外部系統中記錄的時間戳記。如果外部系統裡面沒時間戳記,或者資料寫入外部系統時,亂寫時間戳記,則Emit Delay數值不準確,無法反映真實延時。
IN RPS:每秒輸入記錄數,單位為條/秒。
OUT RPS:每秒輸出記錄數,單位為條/秒。
Source Idle Time:源端未處理資料的時間,單位為毫秒。
時間差:每分鐘查詢最近時間差分鐘內的資料,並與閾值比較。如果歷史資料中滿足條件,則會觸發警示規則。
運算子:支援>=和<=兩種。
閾值:與指標進行比較的值。
如果您選擇的運算子是>= ,則取縱軸中的MAX值。如果時間差內最大值>=閾值,則觸發警示規則。
如果您選擇的運算子是<= ,則取縱軸中的MIN值。如果時間差內最小值<= 閾值,則觸發警示規則。
例如,配置時間差為5分鐘,選擇運算子<=,閾值為2。則每次取指標值的歷史5分鐘的縱軸資料,將其最小值與閾值進行比較,小於等於閾值則觸發警示。
生效時間
警示監控的生效時間,可以指定只在白天(9點~18點)生效,預設全天生效。
警示頻率
連續多少分鐘內只發一次警示。支援1分鐘~1440分鐘(24小時)。
通知方式
通知方式
支援選擇多個通知方式。支援的通知方式如下:
DingTalk:DingTalk。
Email:郵件。
SMS:簡訊。
Webhook:網路服務地址。
Phone:電話。需確保接收人電話已完成驗證,否則無法生效。您可以單擊下方的通知對象管理,若連絡人頁簽中目標連絡人電話列存在未驗證標識,需單擊完成驗證。
重要請確保已建立並添加可用的通知對象,否則將導致警示通知方式失敗。例如,選擇DingTalk通知方式時,請選中DingTalk並添加DingTalk機器人類型的DingTalk通知對象。
通知對象
支援同時通知多個通知對象,您可以直接選擇或搜尋提醒對象。在選擇通知對象前,您需要先建立通知對象。
具體操作為單擊右側的通知對象管理,然後分別在連絡人群組、連絡人、Webhook和DingTalk機器人頁簽中,單擊編輯後單擊儲存。添加DingTalk機器人警示、建立Webhook以及飛書機器人警示,詳情請參見常見問題。
警示降噪
單擊進階配置後,您可以開啟警示降噪開關。
開啟警示降噪開關後,對於作業可以快速恢複的情境(因叢集調度或觸發自動調優等情境觸發的短期的Failover)則不會向您發送警示,只有連續達到您設定的閾值條件時,才會向您發送警示。
無資料警示
單擊進階配置後,您可以開啟無資料警示開關並填寫連續無資料的時間資訊。
開啟該功能後,將監測無監控埋點資料彙報情境,如果資料在選擇時間段內沒有彙報就會觸發警示。通常JobManager異常、作業異常停止或者彙報鏈路異常會導致無監控埋點資料彙報。
單擊確定。
儲存後的警示規則預設已啟用,且出現在警示規則列表中,您可以選擇停止、編輯或刪除。
ARMS
使用RAM使用者、RAM角色等身份訪問時,需要具有訪問應用即時監控服務許可權,詳情請參見存取控制概述。
單個作業配置
單擊目標工作空間操作列下的
,進入應用即時監控服務ARMS控制台。上方展示了工作空間名稱、工作空間ID,以及對應的Prometheus執行個體名稱,
單擊左側的警示規則,建立警示規則。
檢測類型:支援通過靜態閾值和自訂PromQL進行指標警示(Flink已支援的警示指標除外)。
篩選條件:命名空間填寫專案空間名稱;部署作業填寫專案空間下目標作業的部署作業ID(在Flink作業部署詳情頁簽查看),選擇等於時,對指定作業進行監控警示。
更多配置參數詳情請參見Prometheus警示規則。
作業大量設定
單擊目標工作空間操作列下的
,進入應用即時監控服務ARMS控制台。上方展示了工作空間名稱、工作空間ID,以及對應的Prometheus執行個體名稱,
單擊左側的警示規則,建立警示規則。
檢測類型:支援通過靜態閾值和自訂PromQL進行指標警示(Flink已支援的警示指標除外)。
篩選條件:支援批量警示配置。命名空間填寫專案空間名稱,選擇全部時表示工作空間下全部專案空間;部署作業填寫專案空間下目標作業的部署作業ID(在Flink作業部署詳情頁簽查看),選擇全部時表示專案空間下的全部作業。
更多配置參數詳情請參見Prometheus警示規則。您也可以建立Prometheus警示規則模板,詳情請參見Prometheus警示規則模板。
配置事件警示
CloudMonitor
僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示或訂閱事件。
作業事件警示
通過配置條件來訂閱作業的系統事件警示,支援事件批量警示配置。
在左側導覽列,選擇
。在訂閱策略頁簽,單擊建立訂閱策略。
在建立訂閱策略頁面,配置相關參數。
具體參數詳情請參見管理事件訂閱(推薦)。
訂閱類型:系統事件。
產品:選擇Realtime ComputeFlink版。
事件名稱:支援作業運行失敗(使用ARMS監控服務時不支援)、ECS宕機事後處理和ECS主動營運影響事件。目前作業運行失敗事件僅支援嚴重(Critical)事件等級。
事件內容:可以在事件內容中通過填寫如下Flink資訊進行指定作業或批量警示。
工作空間ID:對目標工作空間下所有專案空間的所有作業進行事件警示。工作空間ID查看請參見如何查看工作空間ID等資訊?。
專案空間名稱:對目標專案空間下所有作業進行事件警示。
部署作業名稱:對指定作業進行事件警示,多個作業時使用英文逗號(
,
)分隔。需要注意帳號下是否存在重名作業,若存在重名作業請使用DeploymentID。DeploymentID:對指定作業進行事件警示,多個作業時使用英文逗號(
,
)分隔。可在Flink作業部署詳情頁簽的部署作業ID查看。
說明應用分組、事件內容和事件資源均不設定時,表示訂閱範圍對本帳號內所有工作空間生效。
工作流程事件警示
通過配置條件來訂閱Flink工作流程的系統事件警示,支援事件批量警示配置,工作流程詳情請參見管理工作流程。
擷取工作流程節點的資源ID。
在左側導覽列,選擇
。在事件監控頁簽,產品選擇Realtime ComputeFlink版、事件名稱選擇工作流程工作狀態變化,單擊搜尋。
在下面篩選出工作流程節點的資源ID。
資源格式為
acs:flink:cn-hangzhou:<workspace阿里雲帳號Id>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>
,您也可以使用這個格式直接拼接您的工作流程節點的資源ID。參數
說明
<workspace阿里雲帳號Id>
開通Flink工作空間的阿里雲帳號ID。
<workspaceId-namespaceId>
由"-"字元拼接
workspaceId
和namespaceId
組成。workspaceId
:工作空間ID,登入Realtime Compute控制台,單擊目標工作空間操作列下的工作空間詳情查看。namespaceId
: 專案空間名稱。<workflowDefinitionName>
工作流程名稱。
<taskDefinitionName>
工作流程節點名稱。
說明CloudMonitor中工作流程的狀態變更事件顯示通常會存在幾分鐘的延遲。
訂閱事件通知。
在左側導覽列,選擇
。在訂閱策略頁簽,單擊建立訂閱策略。
在建立訂閱策略頁面,設定訂閱策略的相關參數。
具體參數詳情請參見管理事件訂閱(推薦)。
名稱:輸入訂閱策略名稱稱。
訂閱類型:選擇系統事件。
訂閱範圍:
產品:選擇Realtime ComputeFlink版。
事件名稱:選擇工作流程工作狀態變化。
事件內容:輸入
toState: FAILED
。可配置參數如下:
toState: FAILED
:工作流程狀態失敗。toState: SUCCESS
:工作流程狀態成功。fromState: SCHEDULED, toState: RUNNING
:工作流程狀態從等待調度,到運行中的參數。
事件資源:輸入步驟1中擷取到的資源ID。
事件類型、事件等級、應用分組:均不設定。
Realtime Compute開發控制台
Flink控制台僅支援查看近48小時內警示事件,更長時間的警示事件請在ARMS控制台警示管理中查看。
目前Realtime Compute控制台僅支援對單個作業配置作業失敗事件警示。
進入警示配置入口。
登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台。
在
頁面,單擊目標作業名稱。單擊警示配置頁簽。
在警示規則頁簽,選擇
。您也可以選擇
,通過添加並使用事件警示模板,可以直接建立作業失敗警示規則,加快配置監控警示的效率。填寫警示規則資訊。
類別
參數
描述
具體規則
規則名稱
以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為3~64個字元。
描述
規則的備忘資訊。
內容
選擇Job Failed(作業失敗)指標。
生效時間
警示監控的生效時間,可以指定只在白天(9點~18點)生效,預設全天生效。
警示頻率
連續多少分鐘內只發一次警示。支援1分鐘~1440分鐘(24小時)。
通知方式
通知方式
支援選擇多個通知方式。支援的通知方式如下:
DingTalk:DingTalk
Email:郵件
SMS:簡訊
Webhook:網路服務地址。
Phone:電話。需確保接收人電話已完成驗證,否則無法生效。您可以單擊下方的通知對象管理,若連絡人頁簽中目標連絡人電話列存在未驗證標識,需單擊完成驗證。
重要請確保已建立並添加可用的通知對象,否則將導致警示通知方式失敗。例如,選擇DingTalk通知方式時,請選中DingTalk並添加DingTalk機器人類型的DingTalk通知對象。
通知對象
支援同時通知多個通知對象,您可以直接選擇或搜尋提醒對象。在選擇通知對象前,您需要先建立通知對象。
具體操作為單擊右側的通知對象管理,然後分別在連絡人群組、連絡人、Webhook和DingTalk機器人頁簽中,單擊編輯後單擊儲存。如何添加DingTalk機器人警示或建立Webhook,詳情請參見常見問題。
單擊確定。
儲存後的警示規則預設已啟用,且出現在警示規則列表中,您可以選擇停止、編輯或刪除。
ARMS
當工作空間使用ARMS提供監控警示服務時,支援在CloudMonitor控制台訂閱事件警示(僅支援ECS宕機事後處理和ECS主動營運影響事件,作業運行失敗警示可參見Realtime Compute開發控制台),詳情請參見CloudMonitor。
常見問題
如何在Realtime Compute開發控制台添加DingTalk機器人警示
如何在Realtime Compute開發控制台建立Webhook
相關文檔
Realtime ComputeFlink版支援選擇CloudMonitor(免費監控服務)或ARMS可觀測監控Prometheus版監控服務為您提供作業監控警示功能,功能、費用等對比詳情請參見CloudMonitor與ARMS警示服務功能對比。
CloudMonitor支援通過DingTalk群、飛書群等接收警示通知,配置方法詳情請參見警示通知方式。
支援的監控指標詳情請參見監控指標說明。
您可以關閉監控警示或廢棄具體指標(使用ARMS監控警示時),以節省費用,後續有需要時可以重新恢複指標採集,具體操作請參見廢棄或恢複監控指標。