ACK叢集整合了阿里雲Prometheus,提供可視化的Prometheus監控大盤。在叢集中開啟動態資源超賣功能後,您可以使用ACK提供的在離線混部監控功能,查看混部資源的資料情況,例如混部CPU和記憶體資源總量、CPU和記憶體資源分派率等。
前提條件
已確保ack-koordinator組件版本為v1.1.1-ack.1及以上,請參見ack-koordinator(ack-slo-manager)。
已啟用動態資源超賣功能,請參見啟用動態資源超賣。
大盤入口
登入Container Service管理主控台,在左側導覽列選擇叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在Prometheus監控頁面,單擊 。
大盤說明
在離線混部監控大盤提供如下功能:
混部收益情況:提供在離線混部情境的資源收益看板,支援查看和分析使用混部的資源收益情況。
混部資源可觀測:提供在離線混部情境中關鍵計量的可觀測能力,支援在叢集、節點池、節點以及Pod維度查詢混部資源的容量情況。
下方為在離線混部監控的大盤樣本。大盤會不定期進行升級,請以您的實際介面為準。
叢集混部收益概覽
此地區展示在離線混部的資源收益和使用趨勢。
混部資源總量和分配量
概念 | 說明 |
非混部資源 | ACK節點上所有可調度(Allocatable)的實體資源,稱為非混部資源。非混部資源的總量和節點的機器規格有關,不受在離線混部影響。 |
混部資源 | 啟用動態資源超賣功能可以挖掘叢集中的空閑實體資源,即可用的混部資源。混部資源的總量與實際資源使用率有關,會隨著節點的空閑實體資源量動態變化,是在離線混部額外提供的可調度資源,也是衡量在離線混部收益的關鍵計量之一。 |
混部資源總量 | 分為CPU和記憶體兩個資源維度,分別展示了叢集當前可供應用混部調度的CPU資源總量和記憶體資源總量。如上圖所示,叢集共有118核CPU資源和487 GiB記憶體資源可供應用混部。 混部資源總量越大,表明叢集中可供應用混部的空閑實體資源越多,通過在離線混部調度更多應用的潛在收益越大。 |
混部資源分派量 | 分為CPU和記憶體兩個資源維度,分別展示了叢集當前為應用混部已指派的CPU資源量和記憶體資源量。如上圖所示,叢集共有2核CPU資源和1 GiB記憶體資源已為應用混部分配。 混部資源分派量越大,表明叢集中已調度的離線混部資源越多,通過在離線混部調度更多應用的收益越大。 |
混部資源分派率 | 分為CPU和記憶體兩個資源維度,分別展示了叢集當前為應用混部的CPU資源分派率和記憶體資源分派率( 混部資源分派率越大,說明叢集對混部資源的分配比例越高,在離線混部的收益越大。 |
混部資源使用趨勢
概念 | 說明 |
混部Pod數量 | 分為使用非混部資源調度的Pod數目和使用混部資源調度的Pod數目。混部Pod數量比例展示了叢集中使用非混部資源調度和使用混部資源調度的Pod數目的相對比例。 |
資源混部比例 | 分為CPU和記憶體兩個資源維度,資源混部比例展示了叢集當前可供應用非混部調度的資源量和可供應用混部調度的資源量。叢集中的空閑實體資源越多,混部資源的比例越高,表示有更多資源可供混部調度。 |
叢集混部資源詳情
叢集資源檢視、單機資源檢視和Pod資源檢視地區分別展示了在叢集、節點和Pod維度資源使用量和資源申請量。
叢集資源檢視
概念 | 說明 |
叢集資源使用量 | 分為CPU和記憶體兩個資源維度,每個維度中包含叢集的實體資源總量、非混部Pod的資源使用量、混部Pod的資源使用量以及系統基礎組件的資源使用量。 叢集資源使用量可衡量當前叢集不同類型資源的使用方式,若三種使用量指標之和遠小於實體資源總量,則表明叢集的平均利用率較低,有較多實體資源處於空閑狀態。 |
叢集混部資源申請量 | 分為CPU和記憶體兩個資源維度,每個維度中包含資源的可供調度的混部資源總量和當前已申請的混部資源量。資源申請量越接近資源總量,混部資源的申請比例越大,表明混部資源分派越充分。 |
叢集非混部資源申請量 | 分為CPU和記憶體兩個資源維度,每個維度中包含資源的可供調度的非混部資源總量和當前已申請的非混部資源量。資源申請量越接近資源總量,非混部資源的申請比例越大,說明非混部資源分派越充分。 |
單機資源檢視
在k8s-reclaimed-resource頁簽上方配置node_label和node_label_value,查看不同節點的單機資源檢視。
部分過濾項說明如下:
過濾項 | 說明 |
node_label_value | 預設值為All,表示叢集混部收益情況和叢集資源檢視地區統計範圍為叢集的所有節點。 可選擇目標節點池,在叢集混部收益情況和叢集資源檢視地區查看該節點池的資源檢視。 |
node_label | 支援按不同的節點Label來選中節點,具體操作,請參見頁面上方的使用提示。 |
概念 | 說明 |
節點資源混部比例 | 分為CPU和記憶體兩個資源維度,每個維度包含節點上非混部資源的總量和混部資源的總量。非混部資源總量和混部資源總量堆疊展示,表示了兩者在單機資源上佔據的相對比例。 |
節點資源使用量 | 分為CPU和記憶體兩個資源維度,記憶體資源按照是否包含Cache部分細分為不含Cache和含Cache的兩個子維度。每個維度包含節點上的實體資源總量、非混部Pod的資源使用量、混部Pod的資源使用量以及系統基礎組件的資源使用量。 節點資源使用量可用來衡量當前節點不同類型資源的使用方式,若三種使用量指標之和遠小於實體資源總量,表明節點的平均利用率較低,有較多實體資源處於空閑狀態。 |
節點混部資源申請量 | 分為CPU和記憶體兩個資源維度,每個維度包含節點上的混部資源總量和混部資源已申請量。資源申請量越接近資源總量,混部資源的申請比例越大,表明混部資源分派越充分。 |
各Pod混部資源申請量 | 分為CPU和記憶體兩個資源維度,包含節點上所有混部Pod的資源申請量。 |
各Pod混部資源使用率 | 分為CPU和記憶體兩個資源維度,包含節點上所有混部Pod的資源使用率。 |
Pod資源檢視
在k8s-reclaimed-resource頁簽上方配置pod_namespace和pod_name,查看不同Pod的資源檢視。
概念 | 說明 |
Pod混部資源量 | 分為CPU和記憶體兩個資源維度,每個維度包含Pod對混部資源的使用上限、申請量和實際用量。 |
Pod混部資源使用率 | 分為CPU和記憶體兩個資源維度,每個維度包含Pod使用混部資源的利用率。 |
各容器混部資源量 | 分為CPU和記憶體兩個資源維度,每個維度包含Pod內各個容器對混部資源的使用上限、申請量和實際用量。 |
FAQ
為什麼k8s-reclaimed-resource頁簽中,叢集混部收益情況地區沒有資料?
查看是否已安裝ack-koordinator組件。
登入Container Service管理主控台,在左側導覽列單擊叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇
。在Helm頁面查看是否存在ack-koordinator組件。
不存在:參見安裝和管理組件安裝ack-koordinator組件,然後執行下方步驟。
已存在:直接執行下方步驟。
查看在離線混部監控大盤是否顯示相關資料。
若不顯示,請執行以下步驟:
登入ARMS控制台。
在左側導覽列選擇 ,進入可觀測監控 Prometheus 版的執行個體列表頁面。
在頁面左上方選擇目標地區,單擊Prometheus執行個體名稱,然後在左側導覽列單擊指標管理。
在左側篩選區域的指標文字框中搜尋並選擇kube_node_labels,查看指標的資料詳情。