全部產品
Search
文件中心

Managed Service for Prometheus:主機可觀測

更新時間:Jul 26, 2024

Managed Service for Prometheus支援通過node-exporter採集ECS Linux或Windows主機作業系統相關指標,也支援process-exporter採集進程相關監控資料,另外基於textfile的方式也支援採集使用者寫到檔案中自訂監控指標。

前提條件

主機監控優勢

阿里雲Prometheus主機監控針對阿里雲ECS伺服器提供了一個高效且易於管理的監控方案,這一方案的特點是順應了現代雲端運算環境中對於可觀測性和自動化管理的需求。

阿里雲Prometheus提供的主機監控,具備阿里雲ECS伺服器、自建IDC內伺服器、雲廠商伺服器全類型主機接入能力。針對阿里雲ECS伺服器可根據配置自動安裝各類開源Exporter,各類Exporter採集配置自動產生。託管Prometheus Agent實現自動採集,採集資料統一儲存、統一展示、統一警示。非阿里雲主機不具備自動服務發現的能力,所以需要依賴使用者在接入時手動安裝阿里雲採集探針,主動將監控資料上報到阿里雲Prometheus儲存。

image

優勢

說明

主機秒級發現

  • 適應性:自動服務發現機制允許監控系統快速適應雲資源的動態變化,確保所有運行中的執行個體都被及時監控。

  • 多樣性:支援多種服務發現類型,滿足不同情境下的監控需求,例如支援Kubernetes叢集內服務的自動探索,以及其他類型雲端服務的整合。

探針秒級安裝

  • 隨插即用:自動化安裝Exporter,使得新啟動的計算節點可以立即被監控系統識別並收集其度量,無需人為幹預。

  • 全面監控:提供多種Exporter,包括Node-exporter、Process-exporter、GPU-exporter和中介軟體Exporter,進行全方位的效能追蹤。

指標秒級採集

  • 配置簡化:自動化配置產生減輕了營運人員手動設定的負擔,確保所有節點和服務的指標都能被準確無誤地採集。

  • 靈活性:配置可根據現有的監控需求作出相應調整,帶來靈活性和可擴充性,應對複雜多變的監控環境。

主機從建立到納入監控系統,整體可以在30 ~ 60s以內完成。主機所有指標資料可以支援1 ~ 60s時間間隔的靈活調整。整體實現主機全方位秒級監控能力。

探針Serverless化

  • 集中管理:通過託管的Prometheus Agent統一管理資料擷取,簡化監控架構,提高營運效率,且使用者對資料擷取鏈路無感知。

  • 高效能:因為抽象了監控演算法的複雜性,使用Agent可以減少誤配的可能性,提高監控資料的準確性和時效性。

智能指標標籤

  • 自動摘取阿里雲ECS主機的標籤、資源群組、地區等資訊,並自動注入到整個指標體系中,方便快捷。

  • 可自訂添加額外標籤,進一步提升標籤體系的靈活性,例如自訂業務標識、環境標識、資料來源標識等。

超大規模資料擷取與儲存

  • 支援超大規模主機接入,採用獨享與共用並存託管模式,依據主機接入規模動態調整託管資源,保證接入的時效性和準確性。

  • 儲存可支援超大規模指標儲存,並具備高效能的查詢和展示能力。

提供完善的上下遊監控資料

  • 為了實現一個系統級的、全面的可觀測性,單一實體監控是不夠的,需要整合不同維度監控資料並構建全鏈路觀測,確保監控系統能夠反映出整個應用和服務生態的健康和效能。

  • 涵蓋從底層硬體到應用程式層再到外部服務(例如RDMA網路、OSS儲存、Redis等)的綜合監控策略,不僅包括對主機和網路的監控,還包括對依賴服務的監控。

進程級監控

  • 進程級監控可以對作業系統啟動並執行進程進行跟蹤和分析,以瞭解進程的效能和資源利用情況。這是實現系統級監控的關鍵區段,旨在提供運行在伺服器上的應用程式的健康和表現的透視圖。

  • 進程級監控除了會捕獲進程的CPU使用率、進程的記憶體使用量量、進程的磁碟讀寫情況等關鍵效能指標,還會收集進程的啟動時間、開啟的檔案的控制代碼數、進程下調起的線程數量等。提供接近於即時的監控能力,做到即時反饋,讓系統管理員能夠及時識別和解決問題。

  • 進程級監控為管理員提供更加豐富的故障診斷手段,協助識別導致系統效能下降或故障的進程,例如可能是某些進程記憶體泄露、高CPU使用率或其他資源爭用等。

預設提供Grafana專家級大盤

  • 預設整合經過阿里雲專家經驗沉澱的Grafana大盤,包括ECS Overview總覽大盤、ECS Detail詳細大盤、GPU Overview總覽大盤、GPU Detail詳細大盤、Node Process進程級大盤。

  • 真正做到一鍵接入主機可觀測,開箱即用。

步驟一:接入主機監控資料

  1. 登入ARMS控制台

  2. 在左側導覽列單擊接入中心

  3. 接入中心頁面,單擊左側基礎設施,然後單擊主機監控

    image

    說明
    • 由於Prometheus依賴阿里雲資源中心擷取雲產品當前登入賬戶的VPC、ECS等資料進行服務發現,如果沒有開通資源中心,接入流程會引導您先開通資源中心,具體操作請參見開通資源中心

    • 開通資源中心是非同步作業,重新檢測後如果仍然是未開通狀態,可以等待10~20秒左右再單擊重新檢測

  4. 在彈出的頁面中,選擇目標ECS(VPC),然後按照下表說明填寫配置資訊

    image

    指標

    說明

    NodeExporter 安裝方式

    • 自動安裝(推薦):Prometheus會為使用者選擇的ECS預設安裝node-exporter,您無需其他動作即可接入。

    • 自助安裝:自行安裝node-exporter。

    主機服務發現方式

    • 汙點標籤選擇:黑名單機制。標籤匹配到的執行個體將不會接入Prometheus,沒有匹配到的ECS監控指標將會接入Prometheus,預設不會採集容器監控服務的節點。

    • 無條件:安裝和採集當前VPC內所有ECS主機監控指標。

    • 標籤選擇:白名單機制。標籤匹配到的執行個體將會接入Prometheus,沒有匹配到的ECS執行個體將不會接入Prometheus。

    • IP域選擇:該方式是提供一個網段,當ECS的IP地址匹配該網段時,即被選中。如果填寫VPC對應的網段,即代表命中當前VPC全部ECS。

    • 執行個體ID:指定需要接入的執行個體ID,多個執行個體ID使用英文逗號分隔。

    ECS 汙點標籤

    每一個汙點標籤由key和value組成,可以設定多個汙點標籤。

    採集 TextFile

    採集指定檔案中的Prometheus指標。

    採集進程狀態指標

    預設會採集主機上的進程監控資料。

    Node-Exporter 服務連接埠

    預設連接埠9100。

    Metric 採集間隔(單位/秒)

    採集資料的時間間隔,預設為15秒。

    自動設定安全性群組

    預設開啟。

  5. 單擊確定,等待1~2分鐘即可完成ECS主機監控指標接入。

說明

接入成功後,如果監控大盤沒有資料,需要確認ECS的安全性群組在入方向需要允許100.64.0.0/10和192.168.0.0/18網段對9100和9256的存取權限,查看ECS的安全性群組詳情,請參見查詢安全性群組。9100是node-exporter的預設連接埠,9256是process-exporter的預設連接埠,具體連接埠需要根據您自身配置進行調整。

步驟二:查看監控大盤

  1. 登入ARMS控制台

  2. 在左側導覽列單擊接入管理

  3. 接入管理頁面的已接入環境頁簽中,選擇ECS環境

  4. ECS環境列表中,單擊目標環境名稱進入ECS環境詳情頁面。

  5. 組件管理頁簽,單擊組件類型地區的大盤,即可查看內建的Grafana大盤。

步驟三:配置警示

  1. 登入ARMS控制台

  2. 在左側導覽列單擊接入管理

  3. 接入管理頁面的已接入環境頁簽中,選擇ECS環境

  4. ECS環境列表中,單擊目標環境名稱進入ECS環境詳情頁面。

  5. 組件管理頁簽,單擊組件類型地區的警示規則,即可查看內建的警示規則。

說明
  • 內建的警示規則會產生警示事件,但不會進行警示通知。如果您希望將警示通知發送到郵件或其他平台,可以單擊編輯配置通知方式。在警示配置頁面您也可以自訂警示閾值、期間、警示內容等,具體操作,請參見Prometheus警示規則

  • 在極簡模式下,您可以設定警示的通知對象、通知時段和重複策略。

image

Grafana大盤圖例

ECS Overview大盤

image.png

ECS Detail大盤

image.png

Node Process進程大盤

image.png

GPU Overview大盤

image.png

GPU Detail大盤

image.png