全部產品
Search
文件中心

Platform For AI:開通服務監控警示

更新時間:Dec 04, 2024

通過服務監控警示功能,您可以監控服務運行情況。如果服務運行情況超過了配置的警示規則(條件),則發送警示通知。

背景資訊

EAS支援對服務的以下專案進行監控警示。

監控專案

描述

CPU消耗

服務當前消耗的CPU核心數。

GPU利用率

服務當前GPU使用量占部署GPU總量的比重。

GPU顯存

服務當前GPU顯存使用量。

記憶體消耗

服務當前記憶體消耗,單位MB。

每秒總調用次數

服務每秒總調用次數。

狀態代碼2xx每秒響應

狀態代碼為2xx的每秒響應。

狀態代碼2xx響應佔比

狀態代碼為2xx的響應佔比。

狀態代碼4xx每秒響應

狀態代碼為4xx的每秒響應。

狀態代碼4xx響應佔比

狀態代碼為4xx的響應佔比。

狀態代碼5xx每秒響應

狀態代碼為5xx的每秒響應。

狀態代碼5xx響應佔比

狀態代碼為5xx的響應佔比。

TP5回應時間

前5%請求最大回應時間。

TP80回應時間

前80%請求最大回應時間。

TP90回應時間

前90%請求最大回應時間。

TP95回應時間

前95%請求最大回應時間。

TP99回應時間

前99%請求最大回應時間。

TP100回應時間

前100%請求最大回應時間。

入流量

每秒進入服務的資料量,單位KB。

出流量

每秒流出服務的資料量,單位KB。

步驟一:配置警示連絡人

  1. 建立警示連絡人。

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,選擇警示服務 > 警示連絡人

    3. 警示連絡人頁簽,單擊建立連絡人

    4. 設定警示連絡人面板,輸入警示連絡人姓名、郵箱和DingTalk機器人。

    5. 選擇警示通知資訊語言,並滑動下方的滑塊。

      系統支援如下三種方式:

      • 自動:根據當前帳號註冊時的語言自動適配警示通知資訊的語言,即中國站為中文,國際站和日本站為英文。

      • 中文

      • English

    6. 單擊確認

  2. 建立警示聯絡組

    1. 在左側導覽列,選擇警示服務 > 警示連絡人

    2. 單擊警示聯絡組頁簽。

    3. 警示聯絡組頁簽,單擊建立連絡人群組

    4. 建立連絡人群組面板,填寫警示連絡人群組的組名,並選擇已有警示連絡人。

    5. 單擊確認

步驟二:配置警示規則

  1. 在CloudMonitor控制台的左側導覽列,單擊雲資源監控 > 雲產品監控

  2. 雲產品監控頁面的搜尋方塊中,搜尋PAI-EAS線上預測服務,並單擊PAI-EAS線上預測服務

  3. PAI-EAS線上預測服務頁面,選擇服務所在的地區,單擊服務操作列下的監控圖表

    監控圖表

  4. 單擊建立警示規則

  5. 建立警示規則面板,配置以下參數,並單擊確認

    參數

    描述

    產品

    CloudMonitor管理的產品名稱,選擇PAI-EAS線上預測服務

    資源範圍

    警示規則的作用範圍,分為全部資源和執行個體:

    • 全部資源EAS的任何服務滿足警示規則,都會發送警示通知。

    • 執行個體:僅選中的單個或多個服務執行個體滿足警示規則時,才發送警示通知。

    規則描述

    警示規則的主體,當監控資料滿足指定條件時,觸發警示規則。規則描述的設定方法如下:

    1. 單擊添加規則

    2. 添加規則描述面板,設定規則名稱、指標類型、監控指標、閾值、警示層級和警示方式等。

    3. 單擊確定

    通道沉默周期

    警示發生後如果未恢複正常,間隔多久重複發送一次警示通知。

    生效時間

    警示規則的生效時間,警示規則只在生效時間內才會檢查監控資料是否需要警示。

    警示連絡人群組

    發送警示的連絡人群組,選擇已綁定警示連絡人的警示組。

    警示回調

    可以訪問的公網URL,CloudMonitor會將警示資訊通過POST請求推送至該地址,僅支援HTTP協議。

    Auto Scaling

    EAS線上預測服務警示規則沒有適配Auto Scaling功能,您無需開啟Auto Scaling開關。

    Log Service

    如果您開啟Log Service開關,當警示發生時,會將警示資訊寫入Log Service。您需要配置Log Service的地區ProjectNameLogstore

    建立ProjectName和Logstore的操作方法,請參見快速入門

    輕量訊息佇列(原MNS)

    如果您開啟開關,當警示發生時,會將警示資訊寫入Simple Message Queue (formerly MNS)的主題。您需要設定Simple Message Queue (formerly MNS)的地區和主題。關於如何建立主題,請參見建立主題

    無資料處理方法

    無監控資料時警示的處理方式。取值如下:

    • 不做任何處理(預設值)

    • 發送無資料警示

    • 視為正常