您可以通過阿里雲CloudMonitor服務來監控Log Service的寫入流量、總體QPS、服務狀態等指標,擷取Log Service的使用方式。同時您可以通過建立警示規則,對日誌採集、Shard資源使用等異常進行監控。
前提條件
RAM使用者查看CloudMonitor指標,需要主賬戶為其授予CloudMonitor唯讀(AliyunCloudMonitorReadOnlyAccess)或讀寫(AliyunCloudMonitorFullAccess)許可權,授權步驟請參見建立RAM使用者及授權。
查看CloudMonitor指標
在Project列表地區,單擊目標Project。
在 頁簽中,選擇目標Logstore右側的 。
查看Log Service的監控指標。
CloudMonitor指標含義
CloudMonitor指標 | 含義 |
寫入流量 | Logstore每分鐘寫入資料的即時大小。 |
未經處理資料大小 | Logstore每分鐘寫入資料原始大小,即壓縮前的大小。 |
總體QPS | 所有操作QPS。 |
操作次數 | 統計使用者每分鐘API請求操作的次數。更多資訊,請參見API概覽。 |
服務狀態 | 統計使用者操作返回的HTTP狀態代碼的個數。 |
用戶端解析成功流量 | Logtail採集成功的日誌大小,為未經處理資料大小。 |
用戶端解析成功行數 | Logtail採集成功的日誌的行數。 |
用戶端解析失敗行數 | Logtail採集日誌過程中,出現採集錯誤的行數,如果該視圖有資料,則表示發生了錯誤。 |
用戶端錯誤次數 | Logtail採集日誌過程中,出現採集錯誤的次數。 |
用戶端錯誤機器數 | Logtail採集日誌過程中,出現採集錯誤的警示機器數。 |
發生錯誤IP統計 | 展示各種日誌採集錯誤類型發生的IP數。 請根據具體錯誤找到出錯的IP地址,然後登入機器查看/usr/local/ilogtail/ilogtail.LOG,分析錯誤原因。 |
寫入行數 | Logstore每分鐘寫入資料的行數。 |
讀取流量 | Logstore每分鐘讀取資料的即時大小。 |
消費落後時間長度 | 當前消費進度和隊列中最新資料寫入時間的差值,在一個消費組中,該值為差值最大的Shard的時間差。 |
設定CloudMonitor警示規則
Log Service支援通過CloudMonitor設定警示規則,當服務狀態符合警示規則時發送警示簡訊或郵件。您可以通過設定CloudMonitor中的日誌監控警示規則,對日誌採集、Shard資源使用等異常進行監控。
您可以在目標雲產品的監控頁面,為該雲產品中的資源設定警示規則。當資源符合警示規則時,CloudMonitor自動發送警示通知。
在左側導覽列,選擇
。在雲產品監控頁面,單擊目標雲產品。
為目標雲產品建立警示規則。
在警示規則列表頁面,建立警示規則。
在目標雲產品的監控頁面,單擊目標資源對應操作列的警示規則。
在警示規則列表頁面,單擊建立警示規則。
在建立警示規則面板,設定警示規則相關參數。
單擊確定。
在目標雲產品的監控頁面,建立警示規則。
在目標雲產品的監控頁面,單擊右上方的建立警示規則。
在建立警示規則頁面,設定警示規則相關參數。
單擊確定。
說明關於如何設定警示規則的相關參數,請參見建立警示規則。
查看CloudMonitor警示規則
您可以在目標雲產品的監控頁面,查看該雲產品中的所有警示規則。
在左側導覽列,選擇
。在雲產品監控頁面,單擊目標雲產品。
在目標雲產品的監控頁面,單擊查看警示規則。