本文介紹如何使用阿里雲Prometheus監控ECS主機,以及配置主機監控組件、指標採集、警示的方案,以實現符合您所需的指標採集業務情境。
方案概覽
使用Prometheus監控ECS主機大致分為4步,如下:
ECS接入主機監控:接入後,會自動安裝各類開源Exporter,託管Prometheus Agent自動採集資料,統一管理。
配置主機監控組件(可選):重新設定主機監控組件參數,例如服務連接埠,以修複錯誤的部分,或者滿足新的業務需要。
配置指標採集(可選):廢棄不需要採集的指標,使指標資料更清晰,也可節省費用。
配置警示(可選):根據採集到的資料觸發警示,讓您對感興趣的指標變化有感知,協助您更好的分析問題。
前提條件
已建立ECS執行個體。具體操作,請參見通過控制台使用ECS執行個體(快捷版)。
已開通阿里雲資源中心。具體操作,請參見開通資源中心。
說明由於Prometheus依賴阿里雲資源中心擷取雲產品當前登入賬戶的VPC、ECS等資料進行服務發現,在操作ECS接入主機監控前,需要您已開通資源中心。
1.ECS接入主機監控
接入主機監控後,會預設在ECS主機上安裝Node-exporter和Process-exporter,託管Prometheus Agent自動採集資料,資料統一儲存、展示、警示,單次採集指標量約為1000條/台。
1.1 接入主機監控
在ARMS控制台的接入中心>基礎設施頁面,單擊主機監控。
在彈出的主機監控頁面中,選擇目標ECS所屬的VPC,按照需求填寫配置資訊,配置說明請參見步驟一:接入主機監控資料。
單擊確定,等待1~2分鐘即可完成ECS主機監控接入。
1.2 查看監控大盤
在ARMS控制台的接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。
在組件管理頁簽,單擊組件類型地區的大盤,即可查看內建的Grafana大盤。
說明ECS接入主機監控後,如果監控大盤沒有資料,請檢查安全性群組配置,參見接入主機監控後,在監控大盤查看不到資料,為什嗎?。
2.配置主機監控組件(可選)
在ECS接入主機監控後,如果您想修改主機監控組件的配置,例如主機服務發現的方式、服務連接埠、採集間隔等,可以參考下面的方案操作。
2.1 配置方案
在ARMS控制台的接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。
找到目標組件,單擊設定。
根據需求修改主機監控組件配置,完成後單擊確定,配置說明請參見步驟一:接入主機監控資料。
2.2 驗證
重新整理頁面,再次單擊設定即可查看到修改生效。
查看監控大盤,觀察資料是否符合預期。參見1.2 查看監控大盤。
3.配置指標採集(可選)
可根據您的業務需求配置不需採集的指標,將指標廢棄,廢棄的指標將不會再採集,協助您更輕鬆的分析和管理。
3.1 配置方案
3.2 驗證
單擊更新後,重新整理頁面即可查看到修改生效。
查看監控大盤,觀察資料是否符合預期。參見1.2 查看監控大盤。
4.配置警示(可選)
您可以配置不同規則的警示,監控感興趣的指標,當指標的變化觸發警示時,可以及時通知您,方便您日常維護和問題分析。
警示分為內建警示和自訂警示兩種,內建警示無法新增,如果需要新增警示,可新增自訂警示。下面介紹兩種警示的配置方式。
4.1 配置內建警示
內建的警示規則預設會產生警示事件,但不會進行警示通知,如需通知,可參考下文編輯內建警示規則,配置通知方式。
在ARMS控制台的接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。
在組件管理頁簽,單擊組件類型地區的警示規則,即可查看警示事件或者編輯警示。
根據需要編輯警示,單擊完成。配置參數的具體說明請參見Prometheus警示規則。
4.2 配置自訂警示
當內建警示無法滿足您的需要時,您可以為該Prometheus執行個體配置自訂警示。
在ARMS控制台的接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。
在組件管理頁簽,單擊基本資料地區的預設指標儲存。
進入警示規則頁面,即可建立、編輯和查看自訂警示。警示配置說明請參見Prometheus警示規則。
4.3 驗證
修改警示配置後,重新整理頁面即可查看到修改生效。
可配置易觸發、無風險的警示規則,配置後嘗試觸發警示,查看是否符合預期。
說明警示通知的具體方式由您的警示配置決定。