全部產品
Search
文件中心

Managed Service for Prometheus:使用Prometheus監控ECS主機

更新時間:Aug 08, 2024

本文介紹如何使用阿里雲Prometheus監控ECS主機,以及配置主機監控組件、指標採集、警示的方案,以實現符合您所需的指標採集業務情境。

方案概覽

使用Prometheus監控ECS主機大致分為4步,如下:

  1. ECS接入主機監控:接入後,會自動安裝各類開源Exporter,託管Prometheus Agent自動採集資料,統一管理。

  2. 配置主機監控組件(可選):重新設定主機監控組件參數,例如服務連接埠,以修複錯誤的部分,或者滿足新的業務需要。

  3. 配置指標採集(可選):廢棄不需要採集的指標,使指標資料更清晰,也可節省費用。

  4. 配置警示(可選):根據採集到的資料觸發警示,讓您對感興趣的指標變化有感知,協助您更好的分析問題。

前提條件

  • 已建立ECS執行個體。具體操作,請參見通過控制台使用ECS執行個體(快捷版)

  • 已開通阿里雲資源中心。具體操作,請參見開通資源中心

    說明

    由於Prometheus依賴阿里雲資源中心擷取雲產品當前登入賬戶的VPC、ECS等資料進行服務發現,在操作ECS接入主機監控前,需要您已開通資源中心。

1.ECS接入主機監控

接入主機監控後,會預設在ECS主機上安裝Node-exporter和Process-exporter,託管Prometheus Agent自動採集資料,資料統一儲存、展示、警示,單次採集指標量約為1000條/台

1.1 接入主機監控

  1. ARMS控制台接入中心>基礎設施頁面,單擊主機監控image

  2. 在彈出的主機監控頁面中,選擇目標ECS所屬的VPC,按照需求填寫配置資訊,配置說明請參見步驟一:接入主機監控資料image

  3. 單擊確定,等待1~2分鐘即可完成ECS主機監控接入。

1.2 查看監控大盤

  1. ARMS控制台接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。image

  2. 組件管理頁簽,單擊組件類型地區的大盤,即可查看內建的Grafana大盤。imageimage

    說明

    ECS接入主機監控後,如果監控大盤沒有資料,請檢查安全性群組配置,參見接入主機監控後,在監控大盤查看不到資料,為什嗎?

2.配置主機監控組件(可選)

在ECS接入主機監控後,如果您想修改主機監控組件的配置,例如主機服務發現的方式、服務連接埠、採集間隔等,可以參考下面的方案操作。

2.1 配置方案

  1. ARMS控制台接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。image

  2. 找到目標組件,單擊設定image

  3. 根據需求修改主機監控組件配置,完成後單擊確定,配置說明請參見步驟一:接入主機監控資料

2.2 驗證

  1. 重新整理頁面,再次單擊設定即可查看到修改生效。

  2. 查看監控大盤,觀察資料是否符合預期。參見1.2 查看監控大盤

3.配置指標採集(可選)

可根據您的業務需求配置不需採集的指標,將指標廢棄,廢棄的指標將不會再採集,協助您更輕鬆的分析和管理。

3.1 配置方案

  1. ARMS控制台接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。image

  2. 指標採集 > 指標廢棄地區,配置不需採集的指標名稱,單擊更新。指標說明請參見指標說明image

    說明

    不支援廢棄Prometheus容器監控基礎指標。

3.2 驗證

  1. 單擊更新後,重新整理頁面即可查看到修改生效。

  2. 查看監控大盤,觀察資料是否符合預期。參見1.2 查看監控大盤

4.配置警示(可選)

您可以配置不同規則的警示,監控感興趣的指標,當指標的變化觸發警示時,可以及時通知您,方便您日常維護和問題分析。

警示分為內建警示自訂警示兩種,內建警示無法新增,如果需要新增警示,可新增自訂警示。下面介紹兩種警示的配置方式。

4.1 配置內建警示

內建的警示規則預設會產生警示事件,但不會進行警示通知,如需通知,可參考下文編輯內建警示規則,配置通知方式。

  1. ARMS控制台接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。image

  2. 組件管理頁簽,單擊組件類型地區的警示規則,即可查看警示事件或者編輯警示。image

  3. 根據需要編輯警示,單擊完成。配置參數的具體說明請參見Prometheus警示規則

4.2 配置自訂警示

當內建警示無法滿足您的需要時,您可以為該Prometheus執行個體配置自訂警示。

  1. ARMS控制台接入管理>已接入環境>ECS環境列表中,單擊目標環境名稱,進入詳情頁面。image

  2. 組件管理頁簽,單擊基本資料地區的預設指標儲存image

  3. 進入警示規則頁面,即可建立、編輯和查看自訂警示。警示配置說明請參見Prometheus警示規則image

4.3 驗證

  1. 修改警示配置後,重新整理頁面即可查看到修改生效。

  2. 可配置易觸發、無風險的警示規則,配置後嘗試觸發警示,查看是否符合預期。

    說明

    警示通知的具體方式由您的警示配置決定。

常見問題

接入主機監控後,在監控大盤查看不到資料,為什嗎?

如果監控大盤沒有資料,可能是ECS的安全性群組未放通導致的,請您確認:

ECS的安全性群組在入方向需要允許100.64.0.0/10和192.168.0.0/18網段對node-exporter、process-exporter連接埠的存取權限(node-exporter預設連接埠:9100,process-exporter預設連接埠:9256,具體連接埠需要根據您的配置確認)。查看ECS的安全性群組詳情,請參見查詢安全性群組

選擇了自動安裝,但Node-Exporter並沒有在我的ECS中安裝成功,為什嗎?

請檢查以下幾點:

  1. 您的ECS執行個體是否處於運行狀態。

  2. 目標ECS執行個體是否已經安裝了開源Node-Exporter並佔用了預設9100連接埠。如果已安裝並佔用了9100連接埠,需要在接入管理頁面,單擊設定修改阿里雲Node-exporter的安裝連接埠,避免連接埠衝突導致的安裝失敗。

如何驗證Node-Exporter是否成功安裝?

您可以通過訪問http://<ECS-IP>:<PORT>/metrics查看是否有指標資料被輸出。如果頁面顯示指標資料,則表明安裝成功。

如果不啟用自動設定安全性群組,需要如何手動添加規則?

您需要登入ECS管理主控台在ECS執行個體的安全性群組設定中手動添加入方向規則,以允許指定的監控連接埠(如9100和9256)的訪問(設定為當前VPC網段)。

在接入過程中遇到了網路連接問題,該怎麼辦?

首先,確認被監控的ECS執行個體和Prometheus探針服務能夠在網路上互相訪問。檢查VPC的路由表配置,確保資料流向正確。然後檢查防火牆或安全性群組規則是否正確配置,以允許監控流量通過。

監控資料不準確或缺失,可能是什麼原因導致的?

檢查Node-Exporter和Process-exporter(如果啟用)是否正常運行。使用命令列工具(如curl)查詢Exporter暴露的指標頁面,查看是否可以正常返回資料。如果Exporter運行異常,請檢查日誌。

啟用了進程狀態指標採集後,有哪些額外的考慮?

進程狀態指標採集通過Process-exporter實現,預設使用9256連接埠。請確保該連接埠在安全性群組中同樣被允許,以便指標能夠被成功採集。此外,進程狀態指標增加了對系統資源的小額額外消耗,通常不會對系統效能造成顯著影響,但在資源極為有限的環境中需要注意。