阿里雲Container ServiceACK支援通過ack-koordinator組件為叢集開啟差異化SLO能力。本文介紹如何使用ack-koordinator實現在離線混部基礎監控功能。
前提條件
僅適用於ACK Pro版叢集。具體操作,請參見建立ACK Pro版叢集。
已安裝ack-koordinator組件(原ack-slo-manager),且版本≥v1.1.1-ack.1。具體操作,請參見ack-koordinator(ack-slo-manager)。
已開啟ack-koordinator的動態資源超賣功能。具體操作,請參見動態資源超賣。
查看在離線混部基礎監控
登入Container Service管理主控台,在左側導覽列選擇叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在Prometheus監控頁面,單擊 。
監控大盤樣本如下:
在離線混部基礎監控大盤說明
在離線混部基礎監控大盤提供如下功能:
混部收益分析:提供在離線混部情境的資源收益看板,支援查看和分析使用混部的資源收益情況。
混部資源可觀測:提供在離線混部情境中關鍵計量的可觀測能力,支援多維度(叢集、節點池、節點、Pod)查詢混部資源容量情況。
叢集混部收益概覽
叢集混部收益情況地區展示了在離線混部的資源收益和使用趨勢。
混部資源總量和分配量
概念 | 說明 |
非混部資源 | ACK節點上所有可調度(Allocatable)的實體資源,稱為非混部資源。非混部資源的總量和節點的機器規格有關,不受在離線混部影響。 |
混部資源 | ACK差異化SLO通過動態資源超賣功能,可以挖掘叢集中的空閑實體資源,這部分空閑實體資源稱為混部資源。混部資源的總量與實際資源使用率有關,會隨著節點的空閑實體資源量動態變化,是在離線混部額外提供的可調度資源,也是衡量在離線混部收益的關鍵計量之一。 |
混部資源總量 | 分為CPU和記憶體兩個資源維度,分別展示了叢集當前可供應用混部調度的CPU資源總量和記憶體資源總量。如上圖所示,叢集共有118核CPU資源和487 GiB記憶體資源可供應用混部。混部資源總量越大,說明叢集中可供應用混部的空閑實體資源越多,通過在離線混部調度更多應用的潛在收益越大。 |
混部資源分派量 | 分為CPU和記憶體兩個資源維度,分別展示了叢集當前為應用混部已指派的CPU資源量和記憶體資源量。如上圖所示,叢集共有2核CPU資源和1 GiB記憶體資源已為應用混部分配。混部資源分派量越大,說明叢集中已調度的離線混部資源越多,通過在離線混部調度更多應用的收益越大。 |
混部資源分派率 | 分為CPU和記憶體兩個資源維度,分別展示了叢集當前為應用混部的CPU資源分派率和記憶體資源分派率(資源分派率=資源分派量÷資源總量)。如上圖所示,叢集中混部CPU資源分派率為1.70%,混部記憶體資源分派率為0.21%。混部資源分派率越大,說明叢集對混部資源的分配比例越高,在離線混部的收益越大。 |
混部資源使用趨勢
概念 | 說明 |
混部Pod數量 | 分為使用非混部資源調度的Pod數目和使用混部資源調度的Pod數目。混部Pod數量比例展示了叢集中使用非混部資源調度和使用混部資源調度的Pod數目的相對比例。 |
資源混部比例 | 分為CPU和記憶體兩個資源維度,資源混部比例展示了叢集當前可供應用非混部調度的資源量和可供應用混部調度的資源量。叢集中的空閑實體資源越多,混部資源的比例越高,表示有更多資源可供混部調度。 |
叢集混部資源詳情
叢集資源檢視、單機資源檢視和Pod資源檢視地區分別展示了在叢集、節點和Pod維度資源使用量和資源申請量。
叢集資源檢視
概念 | 說明 |
叢集資源使用量 | 分為CPU和記憶體兩個資源維度,每個維度中包含叢集的實體資源總量、非混部Pod的資源使用量、混部Pod的資源使用量以及系統基礎組件的資源使用量。叢集資源使用量可用來衡量當前叢集不同類型資源的使用方式,若三種使用量指標之和遠小於實體資源總量,則說明叢集的平均利用率較低,有較多實體資源處於空閑狀態。 |
叢集混部資源申請量 | 分為CPU和記憶體兩個資源維度,每個維度中包含資源的可供調度的混部資源總量和當前已申請的混部資源量。資源申請量越接近資源總量,混部資源的申請比例越大,說明混部資源分派越充分。 |
叢集非混部資源申請量 | 分為CPU和記憶體兩個資源維度,每個維度中包含資源的可供調度的非混部資源總量和當前已申請的非混部資源量。資源申請量越接近資源總量,非混部資源的申請比例越大,說明非混部資源分派越充分。 |
您還可以通過配置node_label等查看詳細的節點池視圖。
部分過濾項說明如下:
過濾項 | 說明 |
node_label_value | 預設值為All,表示叢集混部收益情況和叢集資源檢視地區統計範圍為叢集的所有節點。 您可以選擇目標節點池,在叢集混部收益情況和叢集資源檢視地區查看目標節點池的資源檢視。 |
node_label | 您可以按不同的節點Label來選中節點,具體操作,請參見在離線混部頁簽上方的使用提示。 |
單機資源檢視
在在離線混部頁簽上方選擇具體的節點,可以查看不同節點的單機資源檢視。
概念 | 說明 |
節點資源混部比例 | 分為CPU和記憶體兩個資源維度,每個維度包含節點上非混部資源的總量和混部資源的總量。非混部資源總量和混部資源總量堆疊展示,表示了兩者在單機資源上佔據的相對比例。 |
節點資源使用量 | 分為CPU和記憶體兩個資源維度,記憶體資源按照是否包含Cache部分細分為不含Cache和含Cache的兩個子維度。每個維度包含節點上的實體資源總量、非混部Pod的資源使用量、混部Pod的資源使用量以及系統基礎組件的資源使用量。節點資源使用量可用來衡量當前節點不同類型資源的使用方式,若三種使用量指標之和遠小於實體資源總量,則說明節點的平均利用率較低,有較多實體資源處於空閑狀態。 |
節點混部資源申請量 | 分為CPU和記憶體兩個資源維度,每個維度包含節點上的混部資源總量和混部資源已申請量。資源申請量越接近資源總量,混部資源的申請比例越大,說明混部資源分派越充分。 |
各Pod混部資源申請量 | 分為CPU和記憶體兩個資源維度,包含節點上所有混部Pod的資源申請量。 |
各Pod混部資源使用率 | 分為CPU和記憶體兩個資源維度,包含節點上所有混部Pod的資源使用率。 |
Pod資源檢視
在在離線混部頁簽上方配置pod_namespace和pod_name,可以查看不同Pod的資源檢視。
概念 | 說明 |
Pod混部資源量 | 分為CPU和記憶體兩個資源維度,每個維度包含Pod對混部資源的使用上限、申請量和實際用量。 |
Pod混部資源使用率 | 分為CPU和記憶體兩個資源維度,每個維度包含Pod使用混部資源的利用率。 |
各容器混部資源量 | 分為CPU和記憶體兩個資源維度,每個維度包含Pod內各個容器對混部資源的使用上限、申請量和實際用量。 |
FAQ
為什麼在離線混部頁簽中,叢集混部收益情況地區沒有資料?
查看是否已安裝ack-koordinator。
登入Container Service管理主控台,在左側導覽列單擊叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇
。在Helm頁面查看是否存在ack-koordinator組件。
若不存在,請先安裝ack-koordinator,然後執行步驟2。
若已存在,請執行步驟2。
查看叢集混部收益情況是否顯示相關資料。
若不顯示,請執行以下步驟:
- 登入ARMS控制台。
在左側導覽列選擇 ,進入可觀測監控 Prometheus 版的執行個體列表頁面。
在頁面左上方選擇目標地區,單擊Prometheus執行個體名稱,然後在左側導覽列單擊服務發現。
在服務發現頁面的指標文字框中搜尋kube_node_labels,然後在下方列表中,選擇名為kube_node_labels的指標,單擊該指標右側操作列下的啟用。然後在提示對話方塊中,單擊確認。
為什麼大盤樣式與文檔樣本不一致?
在離線混部大盤會不定期進行升級,請以最新版本的實際介面為準。關於升級大盤的具體操作,請參見大盤列表。