全部產品
Search
文件中心

E-MapReduce:配置並查看Spark作業監控與警示

更新時間:Dec 10, 2024

本文為您介紹如何通過阿里雲ARMS服務收集並查看Spark作業的監控指標,以及如何基於監控指標設定警示。

前提條件

配置Prometheus監控

  1. 開啟Pod Monitor能力。

    1. 登入ARMS控制台

    2. 在左側導覽列,單擊接入管理

    3. 已接入環境頁簽,查看容器環境列表,單擊目標容器環境操作列的指標採集,進入指標採集頁面。

    4. 指標採集頁簽,單擊Pod Monitor,進入Pod Monitor配置頁面。

    5. Podmonitor頁簽,依次開啟sparkoperator-podmonitorsparkoperator-spark-podmonitorshuffleservice-master-podmonitorshuffleservice-worker-podmonitor操作列的開關。

      說明

      如果您沒有部署Shuffle Service叢集,請忽略shuffleservice-master-podmonitorshuffleservice-worker-podmonitor

  2. 提交Spark作業,具體操作請參見提交Spark作業

  3. 可選:通過Grafana大盤查看指標曲線。

    1. 登入Grafana大盤概覽頁

    2. 在左側導覽列,單擊Explore表徵圖。

    3. Explore頁面頂部下拉框中選擇ACK叢集,輸入Metric名稱,然後單擊右上方的Run Query進行調試。

      說明
      • Spark Pod的指標以spark_driver_、spark_executor_或jvm_開頭。

      • Spark Operator的指標以spark_app開頭。

      • Shuffle Service的指標以metrics_開頭。

查看警示

  1. 進入警示規則頁面。

    1. 登入EMR on ACK

    2. 在EMR on ACK頁面,單擊目的地組群所在行所屬ACK叢集列的連結。

    3. 在左側導覽列中,選擇營運管理 > Prometheus監控

    4. Prometheus監控頁面,控制台自動安裝組件、檢查監控大盤。

      安裝完成後,單擊各個頁簽可以查看相應監控資料。

    5. Prometheus監控頁面,單擊右上方的跳轉到Prometheus服務

    6. 在左側導覽列,單擊警示規則

  2. 配置警示規則。

    1. Prometheus警示規則頁面,單擊建立Prometheus警示規則

    2. 建立Prometheus警示規則。

  3. Prometheus警示規則頁面,單擊目標警示操作列的警示事件歷史

    當警示條件滿足時,即可看到相應的警示。