本文為您介紹如何通過阿里雲ARMS服務收集並查看Spark作業的監控指標,以及如何基於監控指標設定警示。
前提條件
已在E-MapReduce on ACK控制台建立Spark叢集,詳情請參見快速使用EMR on ACK。
已開通阿里雲應用即時監控服務ARMS,詳情請參見Prometheus執行個體forContainer Service。
配置Prometheus監控
開啟Pod Monitor能力。
登入ARMS控制台。
在左側導覽列,單擊接入管理。
在已接入環境頁簽,查看容器環境列表,單擊目標容器環境操作列的指標採集,進入指標採集頁面。
在指標採集頁簽,單擊Pod Monitor,進入Pod Monitor配置頁面。
在Podmonitor頁簽,依次開啟sparkoperator-podmonitor、sparkoperator-spark-podmonitor、shuffleservice-master-podmonitor和shuffleservice-worker-podmonitor操作列的開關。
說明如果您沒有部署Shuffle Service叢集,請忽略shuffleservice-master-podmonitor和shuffleservice-worker-podmonitor。
提交Spark作業,具體操作請參見提交Spark作業。
可選:通過Grafana大盤查看指標曲線。
登入Grafana大盤概覽頁。
在左側導覽列,單擊
表徵圖。在Explore頁面頂部下拉框中選擇ACK叢集,輸入Metric名稱,然後單擊右上方的Run Query進行調試。
說明Spark Pod的指標以spark_driver_、spark_executor_或jvm_開頭。
Spark Operator的指標以spark_app開頭。
Shuffle Service的指標以metrics_開頭。
查看警示
進入警示規則頁面。
登入EMR on ACK。
在EMR on ACK頁面,單擊目的地組群所在行所屬ACK叢集列的連結。
在左側導覽列中,選擇。
在Prometheus監控頁面,控制台自動安裝組件、檢查監控大盤。
安裝完成後,單擊各個頁簽可以查看相應監控資料。
在Prometheus監控頁面,單擊右上方的跳轉到Prometheus服務。
在左側導覽列,單擊警示規則。
配置警示規則。
在Prometheus警示規則頁面,單擊建立Prometheus警示規則。
建立Prometheus警示規則。
在Prometheus警示規則頁面,單擊目標警示操作列的警示事件歷史。
當警示條件滿足時,即可看到相應的警示。