全部產品
Search
文件中心

Realtime Compute for Apache Flink:配置監控警示

更新時間:Sep 13, 2024

Realtime ComputeFlink版支援使用CloudMonitor(免費監控服務)或ARMS提供監控警示服務,配置作業指標或事件監控警示,便於您及時發現並處理異常。本文為您介紹使用不同監控服務時如何配置監控警示。

使用限制

  • 部署時提交至Session叢集的Flink作業不支援配置監控警示。

  • 批作業暫不支援配置監控警示。

配置引導

配置指標警示

CloudMonitor

重要

僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示。

單個作業配置

  1. 登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台

  2. 營運中心 > 作業營運頁面,單擊目標作業名稱。

  3. 監控警示頁簽,單擊訂閱指標警示,跳轉到CloudMonitor控制台完成相關配置。

    image

  4. 在CloudMonitor控制台設定規則描述面板填寫參數後,單擊確定

    指標類型選擇為簡單指標組合指標,在維度部分,您可以選擇namespace(Flink專案空間名稱)和deploymentID(對應Flink作業部署詳情頁簽的部署作業ID),指定需要監控的作業,其他參數詳情請參見建立警示規則

    說明

    下拉式清單僅顯示有監控資料的namespace和deploymentID,無資料時您可以手動填寫。

    image

  5. 建立警示規則面板,配置其他警示參數。

    通常資源範圍執行個體已預設關聯資源為當前作業對應工作空間ID(如何查看工作空間ID等資訊?),警示規則建立後,關聯資源不可更改。其他參數詳情請參見建立警示規則

  6. 單擊確認

作業大量設定

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇警示服務 > 警示規則

  3. 單擊建立警示規則,配置相關參數,詳情請參見建立警示規則

    參數

    說明

    產品

    Realtime ComputeFlink版

    資源範圍

    • 全部資源:警示規則作用於Realtime ComputeFlink版全部資源。

    • 執行個體:警示規則作用於Realtime ComputeFlink版指定工作空間。單擊添加執行個體,選擇目標地區下的工作空間後,單擊確認

    規則描述

    單擊添加規則 > 簡單指標組合指標,進入設定規則描述面板,參數詳情請參見建立警示規則

    其中,在維度部分,您可以配置namespace(Flink專案空間名稱)和deploymentID(對應Flink作業部署詳情頁簽的部署作業ID),當僅填寫namespace時表示對當前專案空間下所有作業生效,當均不填寫時表示對當前工作空間下所有作業生效。

    說明

    namespace和deploymentID下拉式清單無資料時,您可以手動填寫。

Realtime Compute開發控制台

說明

Realtime Compute開發控制台僅支援查看近48小時內警示事件,更長時間的警示事件請在ARMS控制台警示管理中查看。

目前Realtime Compute開發控制台僅支援單個作業警示配置。您可以針對目標作業建立新的警示規則,也可以在建立警示規則模板後,直接使用已有規則模板為目標作業建立警示,加快配置監控警示的效率。

  1. 進入警示配置入口。

    1. 登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台

    2. 營運中心 > 作業營運頁面,單擊目標作業名稱。

    3. 單擊警示配置頁簽。

  2. 警示規則頁簽,選擇添加警示規則 > 自訂規則

    您也可以選擇添加警示規則 > 規則模板,通過添加並使用警示模板,可以直接建立警示規則或基於模板進行簡單修改後建立警示規則,加快配置監控警示的效率。

  3. 填寫警示規則資訊。

    類別

    參數

    描述

    具體規則

    規則名稱

    以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為3~64個字元。

    描述

    規則的備忘資訊。

    內容

    配置觸發警示的條件內容,配置完成後會每間隔指定時間,對指定的指標值與閾值進行計算比較,計算結果滿足則自動警示。

    • 指標

      • Restart Count in 1 Minute:1分鐘內Job Manager重啟次數,單位為次。

      • Checkpoint Count in 5 Minutes:5分鐘內Checkpoint成功次數,單位為個。

      • Emit Delay:業務延時,即資料發生時間與資料離開Source運算元的時間差值,單位為秒。

        重要

        資料發生時間依賴於外部系統中記錄的時間戳記。如果外部系統裡面沒時間戳記,或者資料寫入外部系統時,亂寫時間戳記,則Emit Delay數值不準確,無法反映真實延時。

      • IN RPS:每秒輸入記錄數,單位為條/秒。

      • OUT RPS:每秒輸出記錄數,單位為條/秒。

      • Source Idle Time:源端未處理資料的時間,單位為毫秒。

    • 時間差:每分鐘查詢最近時間差分鐘內的資料,並與閾值比較。如果歷史資料中滿足條件,則會觸發警示規則。

    • 運算子:支援>=<=兩種。

    • 閾值:與指標進行比較的值。

      • 如果您選擇的運算子是>= ,則取縱軸中的MAX值。如果時間差內最大值>=閾值,則觸發警示規則。

      • 如果您選擇的運算子是<= ,則取縱軸中的MIN值。如果時間差內最小值<= 閾值,則觸發警示規則。

    例如,配置時間差為5分鐘,選擇運算子<=,閾值為2。則每次取指標值的歷史5分鐘的縱軸資料,將其最小值與閾值進行比較,小於等於閾值則觸發警示。

    生效時間

    警示監控的生效時間,可以指定只在白天(9點~18點)生效,預設全天生效。

    警示頻率

    連續多少分鐘內只發一次警示。支援1分鐘~1440分鐘(24小時)。

    通知方式

    通知方式

    支援選擇多個通知方式。支援的通知方式如下:

    • DingTalk:DingTalk。

    • Email:郵件。

    • SMS:簡訊。

    • Webhook:網路服務地址。

    • Phone:電話。需確保接收人電話已完成驗證,否則無法生效。您可以單擊下方的通知對象管理,若連絡人頁簽中目標連絡人電話列存在未驗證標識,需單擊完成驗證。

      image

    重要

    請確保已建立並添加可用的通知對象,否則將導致警示通知方式失敗。例如,選擇DingTalk通知方式時,請選中DingTalk並添加DingTalk機器人類型的DingTalk通知對象。

    通知對象

    支援同時通知多個通知對象,您可以直接選擇或搜尋提醒對象。在選擇通知對象前,您需要先建立通知對象。

    具體操作為單擊右側的通知對象管理,然後分別在連絡人群組連絡人WebhookDingTalk機器人頁簽中,單擊編輯後單擊儲存。添加DingTalk機器人警示、建立Webhook以及飛書機器人警示,詳情請參見常見問題

    警示降噪

    單擊進階配置後,您可以開啟警示降噪開關。

    開啟警示降噪開關後,對於作業可以快速恢複的情境(因叢集調度或觸發自動調優等情境觸發的短期的Failover)則不會向您發送警示,只有連續達到您設定的閾值條件時,才會向您發送警示。

    無資料警示

    單擊進階配置後,您可以開啟無資料警示開關並填寫連續無資料的時間資訊。

    開啟該功能後,將監測無監控埋點資料彙報情境,如果資料在選擇時間段內沒有彙報就會觸發警示。通常JobManager異常、作業異常停止或者彙報鏈路異常會導致無監控埋點資料彙報。

  4. 單擊確定

    儲存後的警示規則預設已啟用,且出現在警示規則列表中,您可以選擇停止、編輯或刪除。

ARMS

說明

使用RAM使用者、RAM角色等身份訪問時,需要具有訪問應用即時監控服務許可權,詳情請參見存取控制概述

單個作業配置

  1. 登入Realtime Compute控制台

  2. 單擊目標工作空間操作列下的更多 > 監控指標配置,進入應用即時監控服務ARMS控制台。

    上方展示了工作空間名稱、工作空間ID,以及對應的Prometheus執行個體名稱,

    image.png

  3. 單擊左側的警示規則,建立警示規則。

    • 檢測類型:支援通過靜態閾值和自訂PromQL進行指標警示(Flink已支援的警示指標除外)。

    • 篩選條件:命名空間填寫專案空間名稱;部署作業填寫專案空間下目標作業的部署作業ID(在Flink作業部署詳情頁簽查看),選擇等於時,對指定作業進行監控警示。

    image

    更多配置參數詳情請參見Prometheus警示規則

作業大量設定

  1. 登入Realtime Compute控制台

  2. 單擊目標工作空間操作列下的更多 > 監控指標配置,進入應用即時監控服務ARMS控制台。

    上方展示了工作空間名稱、工作空間ID,以及對應的Prometheus執行個體名稱,

    image.png

  3. 單擊左側的警示規則,建立警示規則。

    • 檢測類型:支援通過靜態閾值和自訂PromQL進行指標警示(Flink已支援的警示指標除外)。

    • 選條件:支援批量警示配置。命名空間填寫專案空間名稱,選擇全部時表示工作空間下全部專案空間;部署作業填寫專案空間下目標作業的部署作業ID(在Flink作業部署詳情頁簽查看),選擇全部時表示專案空間下的全部作業。

    image

    更多配置參數詳情請參見Prometheus警示規則。您也可以建立Prometheus警示規則模板,詳情請參見Prometheus警示規則模板

配置事件警示

CloudMonitor

重要

僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示或訂閱事件。

作業事件警示

通過配置條件來訂閱作業的系統事件警示,支援事件批量警示配置。

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇事件中心 > 事件訂閱

  3. 訂閱策略頁簽,單擊建立訂閱策略

  4. 建立訂閱策略頁面,配置相關參數。

    具體參數詳情請參見管理事件訂閱(推薦)

    • 訂閱類型系統事件

    • 產品:選擇Realtime ComputeFlink版

    • 事件名稱:支援作業運行失敗(使用ARMS監控服務時不支援)、ECS宕機事後處理ECS主動營運影響事件。目前作業運行失敗事件僅支援嚴重(Critical)事件等級。 

    • 事件內容:可以在事件內容中通過填寫如下Flink資訊進行指定作業或批量警示。

      • 工作空間ID:對目標工作空間下所有專案空間的所有作業進行事件警示。工作空間ID查看請參見如何查看工作空間ID等資訊?

      • 專案空間名稱:對目標專案空間下所有作業進行事件警示。

      • 部署作業名稱:對指定作業進行事件警示,多個作業時使用英文逗號(,)分隔。需要注意帳號下是否存在重名作業,若存在重名作業請使用DeploymentID。

      • DeploymentID:對指定作業進行事件警示,多個作業時使用英文逗號(,)分隔。可在Flink作業部署詳情頁簽的部署作業ID查看。

    說明

    應用分組事件內容事件資源均不設定時,表示訂閱範圍對本帳號內所有工作空間生效。

    image

工作流程事件警示

通過配置條件來訂閱Flink工作流程的系統事件警示,支援事件批量警示配置,工作流程詳情請參見管理工作流程

  1. 擷取工作流程節點的資源ID。

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,選擇事件中心 > 系統事件

    3. 事件監控頁簽,產品選擇Realtime ComputeFlink版、事件名稱選擇工作流程工作狀態變化,單擊搜尋

    4. 在下面篩選出工作流程節點的資源ID。

      工作流程警示_cn.png

      資源格式為acs:flink:cn-hangzhou:<workspace阿里雲帳號Id>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>,您也可以使用這個格式直接拼接您的工作流程節點的資源ID。

      參數

      說明

      <workspace阿里雲帳號Id>

      開通Flink工作空間的阿里雲帳號ID。

      <workspaceId-namespaceId>

      由"-"字元拼接workspaceIdnamespaceId組成。

      workspaceId:工作空間ID,登入Realtime Compute控制台,單擊目標工作空間操作列下的工作空間詳情查看。

      namespaceId: 專案空間名稱。

      <workflowDefinitionName>

      工作流程名稱。

      <taskDefinitionName>

      工作流程節點名稱。

      說明

      CloudMonitor中工作流程的狀態變更事件顯示通常會存在幾分鐘的延遲。

  2. 訂閱事件通知。

    1. 在左側導覽列,選擇事件中心 > 事件訂閱

    2. 訂閱策略頁簽,單擊建立訂閱策略

    3. 建立訂閱策略頁面,設定訂閱策略的相關參數。

      具體參數詳情請參見管理事件訂閱(推薦)

      • 名稱:輸入訂閱策略名稱稱。

      • 訂閱類型:選擇系統事件

      • 訂閱範圍

        • 產品:選擇Realtime ComputeFlink版

        • 事件名稱:選擇工作流程工作狀態變化

        • 事件內容:輸入toState: FAILED

          可配置參數如下:

          • toState: FAILED:工作流程狀態失敗。

          • toState: SUCCESS:工作流程狀態成功。

          • fromState: SCHEDULED, toState: RUNNING:工作流程狀態從等待調度,到運行中的參數。

        • 事件資源:輸入步驟1中擷取到的資源ID。

        • 事件類型事件等級應用分組:均不設定。

Realtime Compute開發控制台

說明

Flink控制台僅支援查看近48小時內警示事件,更長時間的警示事件請在ARMS控制台警示管理中查看。

目前Realtime Compute控制台僅支援對單個作業配置作業失敗事件警示。

  1. 進入警示配置入口。

    1. 登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台

    2. 營運中心 > 作業營運頁面,單擊目標作業名稱。

    3. 單擊警示配置頁簽。

  2. 警示規則頁簽,選擇添加警示規則 > 自訂規則

    您也可以選擇添加警示規則 > 規則模板,通過添加並使用事件警示模板,可以直接建立作業失敗警示規則,加快配置監控警示的效率。

  3. 填寫警示規則資訊。

    類別

    參數

    描述

    具體規則

    規則名稱

    以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為3~64個字元。

    描述

    規則的備忘資訊。

    內容

    選擇Job Failed(作業失敗)指標。

    生效時間

    警示監控的生效時間,可以指定只在白天(9點~18點)生效,預設全天生效。

    警示頻率

    連續多少分鐘內只發一次警示。支援1分鐘~1440分鐘(24小時)。

    通知方式

    通知方式

    支援選擇多個通知方式。支援的通知方式如下:

    • DingTalk:DingTalk

    • Email:郵件

    • SMS:簡訊

    • Webhook:網路服務地址。

    • Phone:電話。需確保接收人電話已完成驗證,否則無法生效。您可以單擊下方的通知對象管理,若連絡人頁簽中目標連絡人電話列存在未驗證標識,需單擊完成驗證。

    重要

    請確保已建立並添加可用的通知對象,否則將導致警示通知方式失敗。例如,選擇DingTalk通知方式時,請選中DingTalk並添加DingTalk機器人類型的DingTalk通知對象。

    通知對象

    支援同時通知多個通知對象,您可以直接選擇或搜尋提醒對象。在選擇通知對象前,您需要先建立通知對象。

    具體操作為單擊右側的通知對象管理,然後分別在連絡人群組連絡人WebhookDingTalk機器人頁簽中,單擊編輯後單擊儲存。如何添加DingTalk機器人警示或建立Webhook,詳情請參見常見問題

  4. 單擊確定

    儲存後的警示規則預設已啟用,且出現在警示規則列表中,您可以選擇停止、編輯或刪除。

ARMS

當工作空間使用ARMS提供監控警示服務時,支援在CloudMonitor控制台訂閱事件警示(僅支援ECS宕機事後處理和ECS主動營運影響事件,作業運行失敗警示可參見Realtime Compute開發控制台),詳情請參見CloudMonitor

常見問題

如何在Realtime Compute開發控制台添加DingTalk機器人警示

  1. 添加一個自訂DingTalk機器人,並擷取它的Webhook地址,詳情請參見添加自訂DingTalk機器人並擷取Webhook地址

    重要

    安全設定請至少選中自訂關鍵詞,且關鍵詞至少設定為警示才能收到警示資訊。

  2. 添加通知對象。

    1. 營運中心 > 作業營運頁面,單擊目標作業名稱,單擊警示配置頁簽。

    2. 選擇添加警示規則 > 自訂規則規則模板

    3. 建立規則建立警示規則模板資訊頁面,單擊通知對象管理

      image.png

  3. DingTalk機器人頁簽,單擊添加DingTalk機器人

    輸入DingTalk機器人的名稱地址,單擊提交

  4. 返回步驟2的建立規則建立警示規則模板資訊頁面,通知方式選擇DingTalk通知對象選擇對應的DingTalk機器人。

    警示規則中的其他參數說明請參見Realtime Compute開發控制台警示配置

  5. 單擊確定

如何在Realtime Compute開發控制台建立Webhook

  1. 警示模板或者規則資訊頁面,單擊通知對象管理

  2. Webhook頁簽,單擊建立Webhook

  3. 建立Webhook頁面,輸入Webhook資訊。

    參數

    說明

    名稱

    必填,Webhook名稱。

    URL

    必填,網路服務地址。

    Headers

    可選,要求標頭,用來存放cookie和token資訊。格式為key: value

    說明

    請確保key與value的冒號後存在空格分隔字元。

    Params

    可選,請求參數,格式為key: value

    說明

    請確保key與value的冒號後存在空格分隔字元。

    Body

    必填,請求體,用來存放POST的參數和參數資料。

    您可以在Body字串中使用$content預留位置輸出警示內容。

  4. 單擊確定

相關文檔

  • Realtime ComputeFlink版支援選擇CloudMonitor(免費監控服務)或ARMS可觀測監控Prometheus版監控服務為您提供作業監控警示功能,功能、費用等對比詳情請參見CloudMonitor與ARMS警示服務功能對比

  • ARMS支援警示升級及排班等功能配置,詳情請參見升級策略相關實踐教程

  • CloudMonitor支援通過DingTalk群、飛書群等接收警示通知,配置方法詳情請參見警示通知方式

  • 支援的監控指標詳情請參見監控指標說明

  • 您可以關閉監控警示或廢棄具體指標(使用ARMS監控警示時),以節省費用,後續有需要時可以重新恢複指標採集,具體操作請參見廢棄或恢複監控指標