通過服務監控警示功能,您可以監控服務運行情況。如果服務運行情況超過了配置的警示規則(條件),則發送警示通知。
背景資訊
EAS支援對服務的以下專案進行監控警示。
監控專案 | 描述 |
CPU消耗 | 服務當前消耗的CPU核心數。 |
GPU利用率 | 服務當前GPU使用量占部署GPU總量的比重。 |
GPU顯存 | 服務當前GPU顯存使用量。 |
記憶體消耗 | 服務當前記憶體消耗,單位MB。 |
每秒總調用次數 | 服務每秒總調用次數。 |
狀態代碼2xx每秒響應 | 狀態代碼為2xx的每秒響應。 |
狀態代碼2xx響應佔比 | 狀態代碼為2xx的響應佔比。 |
狀態代碼4xx每秒響應 | 狀態代碼為4xx的每秒響應。 |
狀態代碼4xx響應佔比 | 狀態代碼為4xx的響應佔比。 |
狀態代碼5xx每秒響應 | 狀態代碼為5xx的每秒響應。 |
狀態代碼5xx響應佔比 | 狀態代碼為5xx的響應佔比。 |
TP5回應時間 | 前5%請求最大回應時間。 |
TP80回應時間 | 前80%請求最大回應時間。 |
TP90回應時間 | 前90%請求最大回應時間。 |
TP95回應時間 | 前95%請求最大回應時間。 |
TP99回應時間 | 前99%請求最大回應時間。 |
TP100回應時間 | 前100%請求最大回應時間。 |
入流量 | 每秒進入服務的資料量,單位KB。 |
出流量 | 每秒流出服務的資料量,單位KB。 |
步驟一:配置警示連絡人
建立警示連絡人。
在左側導覽列,選擇 。
在警示連絡人頁簽,單擊建立連絡人。
在設定警示連絡人面板,輸入警示連絡人姓名、郵箱和DingTalk機器人。
選擇警示通知資訊語言,並滑動下方的滑塊。
系統支援如下三種方式:
自動:根據當前帳號註冊時的語言自動適配警示通知資訊的語言,即中國站為中文,國際站和日本站為英文。
中文
English
單擊確認。
建立警示聯絡組
在左側導覽列,選擇 。
單擊警示聯絡組頁簽。
在警示聯絡組頁簽,單擊建立連絡人群組。
在建立連絡人群組面板,填寫警示連絡人群組的組名,並選擇已有警示連絡人。
單擊確認。
步驟二:配置警示規則
在CloudMonitor控制台的左側導覽列,單擊 。
在雲產品監控頁面的搜尋方塊中,搜尋PAI-EAS線上預測服務,並單擊PAI-EAS線上預測服務。
在PAI-EAS線上預測服務頁面,選擇服務所在的地區,單擊服務操作列下的監控圖表。
單擊建立警示規則。
在建立警示規則面板,配置以下參數,並單擊確認。
參數
描述
產品
CloudMonitor管理的產品名稱,選擇PAI-EAS線上預測服務。
資源範圍
警示規則的作用範圍,分為全部資源和執行個體:
全部資源:EAS的任何服務滿足警示規則,都會發送警示通知。
執行個體:僅選中的單個或多個服務執行個體滿足警示規則時,才發送警示通知。
規則描述
警示規則的主體,當監控資料滿足指定條件時,觸發警示規則。規則描述的設定方法如下:
單擊添加規則。
在添加規則描述面板,設定規則名稱、指標類型、監控指標、閾值、警示層級和警示方式等。
單擊確定。
通道沉默周期
警示發生後如果未恢複正常,間隔多久重複發送一次警示通知。
生效時間
警示規則的生效時間,警示規則只在生效時間內才會檢查監控資料是否需要警示。
警示連絡人群組
發送警示的連絡人群組,選擇已綁定警示連絡人的警示組。
警示回調
可以訪問的公網URL,CloudMonitor會將警示資訊通過POST請求推送至該地址,僅支援HTTP協議。
Auto Scaling
EAS線上預測服務警示規則沒有適配Auto Scaling功能,您無需開啟Auto Scaling開關。
Log Service
如果您開啟Log Service開關,當警示發生時,會將警示資訊寫入Log Service。您需要配置Log Service的地區、ProjectName及Logstore。
建立ProjectName和Logstore的操作方法,請參見快速入門。
Message ServiceMNS-Topic
如果您開啟開關,當警示發生時,會將警示資訊寫入Simple Message Queue (formerly MNS)的主題。您需要設定Simple Message Queue (formerly MNS)的地區和主題。關於如何建立主題,請參見建立主題。
無資料處理方法
無監控資料時警示的處理方式。取值如下:
不做任何處理(預設值)
發送無資料警示
視為正常