DLA支援配置虛擬叢集以及Spark作業層級的監控警示,您可以設定警示規則,系統在監控資料滿足條件時,會通知警示聯絡組中的所有連絡人。
背景資訊
監控警示是通過阿里雲Prometheus監控實現的。通過阿里雲Prometheus監控,您可以查看監控大盤,設定監控項,在觸發監控項的警示規則時,Prometheus監控可以通過郵件、DingTalk、簡訊、電話通知警示聯絡組中的所有連絡人。您可以維護警示監控項對應的警示聯絡組,以便發生警示時,相關連絡人能及時收到通知。
前提條件
- 您已經成功購買DLA虛擬叢集。
- 如果您是RAM使用者,請確認已具備AliyunARMSFullAccess許可權。
添加警示
- 登入Data Lake Analytics管理主控台。
- 單擊左側導覽列中的虛擬叢集管理 。
- 單擊目標虛擬叢集詳情。
- 在左側導覽列單擊監控警示,選擇警示。
- 在右側單擊建立警示,進入警示配置介面。
- 在建立警示面板,執行以下操作:
- 從警示模板下拉式清單,選擇模板。
DLA支援的模板列表有Presto叢集CPU利用率大於90%、Presto叢集記憶體利用率大於90%、Spark虛擬叢集CPU/Memory Quota利用率大於90%、Spark Structure Streaming作業處理延時大於10秒、Spark流作業Batch處理時間長度大於10秒、Spark作業節點每分鐘Full GC時間大於10秒、Spark作業節點記憶體利用率大於90%、Spark作業節點CPU利用率大於90%、Spark作業停止。
- 在規則名稱文字框,輸入規則名稱,例如:Spark Structure Streaming作業處理延時大於10秒。
- 在警示運算式文字框,輸入警示運算式。以Spark Structure Streaming作業處理延時大於10秒為例,預設運算式為
spark_structured_streaming_driver_latency / 1000 > 10
。說明 如果您需要對指定作業進行監控警示,請參見指定作業的警示設定。 - 在期間文字框,輸入時間,例如:1分鐘,當警示條件連續1分鐘都滿足時才會發送警示。
- 在警示訊息文字框,輸入警示訊息。
- 可選:在進階配置的標籤地區,單擊建立標籤可以設定警示標籤,設定的標籤可用作指派規則的選項。
- 可選:在進階配置的注釋地區,單擊建立注釋,設定鍵為message,設定值為 {{變數名}}警示資訊。設定完成後的格式為:
message:{{變數名}}警示資訊
,例如:message:{{$labels.pod_name}}重啟
。您可以自訂變數名,也可以選擇已有的標籤作為變數名。已有的標籤包括:- 警示規則運算式指標中攜帶的標籤。
- 通過警示規則建立的標籤。
- ARMS系統內建的預設標籤,預設標籤說明如下。
標籤 說明 alertname 警示名稱,格式為:警示名稱_叢集名稱。 _aliyun_arms_alert_level 警示等級。 _aliyun_arms_alert_type 警示類型。 _aliyun_arms_alert_rule_id 警示規則對應的ID。 _aliyun_arms_region_id 地區ID。 _aliyun_arms_userid 使用者ID。 _aliyun_arms_involvedObject_type 關聯對象子類型,如ManagedKubernetes,ServerlessKubernetes。 _aliyun_arms_involvedObject_kind 關聯對象分類,如app,cluster。 _aliyun_arms_involvedObject_id 關聯對象ID。 _aliyun_arms_involvedObject_name 關聯對象名稱。
- 單擊確定。
- 從警示模板下拉式清單,選擇模板。
管理警示規則
- 登入Data Lake Analytics管理主控台。
- 單擊左側導覽列中的虛擬叢集管理 。
- 單擊目標虛擬叢集詳情。
- 在左側導覽列單擊監控警示,選擇警示。
- 單擊警示頁簽,在右側操作列按需對目標警示規則採取以下操作。
- 如需編輯警示規則,請單擊編輯,在編輯警示對話方塊中編輯警示規則,並單擊確認。
- 如需啟動未啟用的警示規則,請單擊開啟,然後在狀態列中查看啟動狀態。
- 如需停用已啟用的警示規則,請單擊關閉,然後在狀態列中查看停用狀態。