全部產品
Search
文件中心

Alibaba Cloud Linux:Group Identity功能說明

更新時間:Nov 07, 2024

Alibaba Cloud Linux 2(核心版本4.19.91-24.al7開始)和Alibaba Cloud Linux 3(核心版本5.10.46-7.al8 開始)支援Group Identity功能 ,您可以通過該功能為每一個CPU cgroup設定不同的身份標識,以區分不同CPU cgroup中進程任務的優先順序。

背景資訊

在業務的混合部署(延遲敏感型和計算型任務混合部署在同一台執行個體)情境中,Linux核心調度器需要為高優先順序任務賦予更多的調度機會,以最小化調度延遲,並將低優先順序任務對核心調度帶來的影響降到最低。基於該情境,Alibaba Cloud Linux提供了Group Identity功能,為CPU cgroup新增了配置調度優先順序的介面,且不同優先順序的任務具有以下特點:

  • 高優先順序任務的喚醒延遲最小化。

  • 低優先順序任務不會對高優先順序任務造成效能影響。主要體現在:

    • 低優先順序任務的喚醒不會對高優先順序任務造成效能影響。

    • 低優先順序任務不會通過共用硬體unit對高優先順序任務造成效能影響。

前提條件

說明
  • 當Alibaba Cloud Linux 2的核心版本(執行uname -r命令查詢)為4.19.91-264.19.91-26.14.19.91-26.2或者4.19.91-26.3時,核心配置中關閉了Group Identity,所以不支援使用Group Identity功能。

  • 當Alibaba Cloud Linux 3的核心版本為5.10.112-11.al85.10.112-11.1.al85.10.112-11.2.al85.10.134-12.al85.10.134-12.1.al8或者5.10.134-12.2.al8時,核心配置中關閉了Group Identity,所以不支援使用Group Identity功能。

  • 當Alibaba Cloud Linux 2核心版本是4.19.91-25.1.al7~4.19.91-25.5.al7時,Alibaba Cloud Linux 2使用Group Identity功能時會出現宕機現象。請先升級核心版本至4.19.91-25.6.al7或更高版本。具體操作,請參見升級核心

  • 當Alibaba Cloud Linux 3核心版本是5.10.134-12.2.al8且系統架構為x86_64時,可以通過如下方式使用Group Identity功能。

    yum makecache
    sudo yum install scheduler-group-identity.x86_64 -y
  • 當Alibaba Cloud Linux 2的核心版本大於等於4.19.91-26.4、Alibaba Cloud Linux 3的核心版本大於等於5.10.134-13.al8時,Group Identity新增開關/proc/sys/kernel/sched_group_identity_enabled。在使用Group Identity之前需要先執行sudo sh -c 'echo 1 > /proc/sys/kernel/sched_group_identity_enabled'命令,開啟該開關,否則無法使用Group Identity功能。

功能原理

Group Identity功能可以對每一個CPU cgroup設定身份標識,以區分cgroup中的任務優先順序。Group Identity核心是雙紅/黑樹狀結構設計,在CFS(Completely Fair Scheduler)調度隊列的單紅/黑樹狀結構基礎上,新增了一棵低優先順序的紅/黑樹狀結構,用於存放低優先順序任務。

系統核心在調度包含具有身份標識的任務時,會根據不同的優先順序做相應處理。具體說明如下表:

身份標識(按優先順序由高到低排序)

說明

ID_HIGHCLASS

高優先順序任務,相較於低於其優先順序的任務會有更多的資源搶佔機會。

CFS調度器在調度高優先順序任務時,會有以下行為的變化:

  • 如果當前啟動並執行是低優先順序任務,當高優先順序任務被喚醒時,可無條件進行資源搶佔。

  • 如果當前啟動並執行是普通優先順序任務,當高優先順序任務被喚醒時,vruntime小於普通優先順序任務,則高優先順序任務可以無視原有調度策略(任務在CPU上啟動並執行時間小於最小已耗用時間時不可以進行資源搶佔),進行資源搶佔。

  • 在排隊運行任務的情境中,如果當前啟動並執行是普通或低優先順序的任務,當高優先順序任務的vruntime小於當前任務時,高優先順序任務可以無視原有調度策略(任務在CPU上啟動並執行時間小於最小已耗用時間時不可以進行資源搶佔),進行資源搶佔。

ID_NORMAL

普通優先順序任務,相較於低於其優先順序的任務會有更多的資源搶佔機會。

CFS調度器在調度普通優先順序任務時,會有以下行為的變化:

  • 如果當前啟動並執行是低優先順序任務,當普通優先順序任務被喚醒時,可無條件進行資源搶佔。

  • 在排隊運行任務的情境中,如果當前啟動並執行是低優先順序任務,當普通優先順序任務vruntime小於低優先順序任務時,普通優先順序任務可以無視原有調度策略(任務在CPU上啟動並執行時間小於最小已耗用時間時不可以進行資源搶佔),進行資源搶佔。

ID_UNDERCLASS

低優先順序任務。

CFS調度器在調度低優先順序任務時,會有以下行為的變化:

如果SMT對端CPU運行了SMT驅逐者(ID_SMT_EXPELLER)任務,則低優先順序任務無法被調度至CPU上,即等同於被踢出了任務運行隊列。

以上身份標識的作用範圍遵從CPU cgroup的資源管理原則:

  • 在同一層級的cgroup中的任務,身份標識的優先順序生效。

  • 相對於父層級的cgroup,任務身份標識的優先順序不生效;相對於子層級的cgroup,任務身份標識的優先順序生效。

  • 同優先順序的身份標識之間的資源競爭基本服從CFS調度器的策略,但需要注意ID_UNDERCLASSID_NORMAL身份標識的任務沒有最小已耗用時間的保障。

其他身份標識說明:

身份標識

說明

ID_SMT_EXPELLER

SMT驅逐者,當其被調度到CPU上運行時,驅逐SMT對端CPU上的ID_UNDERCLASS身份標識的任務。

ID_IDLE_SEEKER

表示當任務被喚醒時,會在調度器策略範圍內最大限度地嘗試找到空閑CPU(Idle CPU)。

ID_IDLE_SAVER

與核心參數sched_idle_saver_wmark結合使用,您可以通過sched_idle_saver_wmark自行配置空閑時間長度水位線。當ID_IDLE_SAVER身份標識的任務被喚醒時,只會嘗試找到高於該水位線的空閑CPU,不會嘗試找到低於該水位線的空閑CPU。

介面說明

  • 身份標識配置介面

    Group Identity提供了兩個用於設定任務身份標識的介面:/sys/fs/cgroup/cpu/$cg/cpu.identity/sys/fs/cgroup/cpu/$cg/cpu.bvt_warp_ns。其中變數$cg表示任務實際所在的子cgroup目錄節點。在使用身份標識配置介面前,您需要注意:

    • cpu.bvt_warp_ns介面是快捷配置介面,寫入後會轉換為identity。

    • cpu.identity介面與cpu.bvt_warp_ns介面都是對cgroup的identity做更改。

    • cpu.identity介面寫入後會覆蓋cpu.bvt_warp_ns介面上次的寫入值,但不會在cpu.bvt_warp_ns介面中體現。

    • cpu.bvt_warp_ns介面寫入後會覆蓋cpu.identity介面上次的寫入值,但不會在cpu.identity介面中體現。

    • 您只需要使用任一介面設定任務的身份標識,不建議同時設定兩個介面。

    • 如果您不熟悉作業系統核心的相關操作,不建議使用cpu.identity介面。

    介面說明如下:

    介面

    說明

    cpu.identity

    預設取值為0,表示身份標識為ID_NORMAL

    該介面是一個位段,一共有5個位元位,該介面各個位元位的取值說明如下:

    • 空值:表示身份標識為ID_NORMAL

    • 位元位0:表示身份標識為ID_UNDERCLASS

    • 位元位1:表示身份標識為ID_HIGHCLASS

    • 位元位2:表示身份標識為ID_SMT_EXPELLER

    • 位元位3:表示身份標識為ID_IDLE_SAVER

    • 位元位4:表示身份標識為ID_IDLE_SEEKER

    例如,如果設定一個cgroup的身份標識為ID_HIGHCLASSID_IDLE_SEEKER,那麼將位元位1和4置為1,其他位元位置為0,得到的二進位表示為:10010,轉化為十進位為:18,則執行echo 18 > /sys/fs/cgroup/cpu/$cg/cpu.identity即可完成寫入。

    cpu.bvt_warp_ns

    預設取值為0,表示身份標識為ID_NORMAL。該介面的取值說明如下:

    • 2:表示同時具有身份標識ID_SMT_EXPELLERID_IDLE_SEEKERID_HIGHCLASS,對應的identity值為22。

    • 1:表示同時具有身份標識ID_HIGHCLASSID_IDLE_SEEKER,對應的identity值為18。

    • 0:表示身份標識為ID_NORMAL,對應的identity值為0。

    • -1:表示同時具有身份標識ID_UNDERCLASSID_IDLE_SAVER,對應的identity值為9。

    • -2:表示同時具有身份標識ID_UNDERCLASSID_IDLE_SAVER,對應的identity值為9。

    說明

    Alibaba Cloud Linux預設支援cgroup v1介面,在Alibaba Cloud Linux 3核心版本大於等於5.10.134-13的5.10核心中,Group Identity也支援cgroup v2介面

    /sys/fs/cgroup/$cg/cpu.identity/sys/fs/cgroup/$cg/cpu.bvt_warp_ns,其中變數$cg表示任務實際所在的子cgroup目錄節點。

  • 調度特性開關配置介面

    運行以下命令,您可以通過sched_features介面查看到核心調度特性的預設配置。

    sudo cat /sys/kernel/debug/sched_features

    具體說明如下:

    調度特性

    說明

    預設值

    ID_IDLE_AVG

    該特性與ID_IDLE_SAVER身份標識配合,把ID_UNDERCLASS任務的已耗用時間計入空閑時間長度,防止只有ID_UNDERCLASS任務運行時仍保留空閑CPU(Idle CPU)的問題,避免資源浪費。

    ID_IDLE_AVG:表示特性為啟用狀態。

    ID_RESCUE_EXPELLEE

    該特性作用於負載平衡情境,如果任務無法找到可用的CPU資源,則進行中驅逐ID_UNDERCLASS任務的CPU會成為負載平衡的目標。用於協助ID_UNDERCLASS任務儘快擺脫被驅逐的狀態。

    ID_RESCUE_EXPELLEE:表示特性為啟用狀態。

    ID_EXPELLEE_NEVER_HOT

    該特性被啟用後,正在被驅逐的任務在判斷是否需要遷移至其他CPU時,不會因為熱緩衝的原因而造成拒絕遷移。用於協助ID_UNDERCLASS任務儘快擺脫被驅逐的狀態。

    NO_ID_EXPELLEE_NEVER_HOT:表示特性為關閉狀態。

    ID_LOOSE_EXPEL

    該特性被啟用後,CPU不會在每次選擇任務時更新驅逐狀態,而是根據核心參數sched_expel_update_interval設定的時間自動更新。該特性的開關僅影響CPU選擇任務時的狀態更新,不影響處理IPI中斷的更新。

    NO_ID_LOOSE_EXPEL:表示特性為關閉狀態。

    ID_LAST_HIGHCLASS_STAY

    該特性被啟用後,CPU上最後一個啟動並執行ID_HIGHCLASS任務不會被遷移至其他CPU。

    ID_LAST_HIGHCLASS_STAY:表示特性為啟用狀態。

    ID_EXPELLER_SHARE_CORE

    • 該特性開啟時允許ID_SMT_EXPELLER的任務優先選擇已經有ID_SMT_EXPELLER任務的物理核,該特性關閉時則不允許。

    • 該特性關閉時可以儘可能地把ID_SMT_EXPELLER的任務分散到各個物理核上,從而避免ID_SMT_EXPELLER任務之間的相互幹擾。

    ID_EXPELLER_SHARE_CORE:表示特性為啟用狀態。

    ID_ABSOLUTE_EXPEL

    在Alibaba Cloud Linux 3的5.10.134-16.3核心中引入,在核心版本大於等於5.10.134-16.3的5.10核心中可以使用。開啟該特性後,身份為ID_UNDERCLASS的任務將受到絕對壓制,即運行隊列中只要有ID_NORMAL或者ID_HIGHCLASS任務,ID_UNDERCLASS的任務就無法得到調度,最壞情況將導致ID_UNDERCLASS任務餓死,因此開啟該特性前需評估混合部署情境中各種身份任務的負載情況。

    NO_ID_ABSOLUTE_EXPEL:表示特性為關閉狀態。

    ID_LOAD_BALANCE

    在Alibaba Cloud Linux 3的5.10.134-16.3核心中引入,在核心版本大於等於5.10.134-16.3的5.10核心中可以使用。開啟該特性後,調度器在負載平衡時,會將只有ID_UNDERCLASS任務的CPU視為空白閑CPU,並會嘗試將ID_HIGHCLASS任務遷移到這種CPU上,會盡量將ID_HIGHCLASS打散,避免ID_HIGHCLASS任務之間的CPU競爭和HT幹擾,使每個ID_HIGHCLASS任務都能獲得充足的CPU資源。

    NO_ID_LOAD_BALANCE:表示特性為關閉狀態。

  • 用於sysctl配置核心參數的介面

    Group Identity的部分功能的實現需要以核心參數的取值作為參考。相關核心參數的具體說明如下表:

    核心參數

    說明

    單位

    預設值

    /proc/sys/kernel/sched_expel_update_interval

    CPU在選擇任務時,驅逐狀態的自動更新時間間隔。僅在ID_LOOSE_EXPEL特性開啟時生效。

    ms

    10

    /proc/sys/kernel/sched_expel_idle_balance_delay

    CPU在驅逐狀態下,idle balance的最小時間間隔。取值為-1時表示不允許進行idle balance

    當CPU上均為ID_UNDERCLASS任務且任務在被驅逐時,CPU的狀態可以理解為空白閑狀態,在該狀態下CPU會進行idle balance以提高負載平衡的效果,但會對ID_UNDERCLASS任務造成損傷。通過設定sched_expel_idle_balance_delay參數可以緩解該問題。

    ms

    -1

    /proc/sys/kernel/sched_idle_saver_wmark

    設定CPU空閑時間的水位線。當ID_IDLE_SAVER任務被喚醒時,只會嘗試找到高於該水位線的空閑CPU,不會嘗試找到低於該水位線的空閑CPU。

    ns

    0

    /proc/sys/kernel/sched_group_identity_enabled

    4.19.91-26.4開始,Group Identity新增開關/proc/sys/kernel/sched_group_identity_enabled。在使用Group Identity功能之前需要先執行echo 1 > /proc/sys/kernel/sched_group_identity_enabled開啟該開關,否則將無法使用該功能。

    開啟該開關後,如果cgroup的cpu.bvt_warp_ns或者cpu.identity非零,則無法向/proc/sys/kernel/sched_group_identity_enabled介面寫入資料。

    說明

    當核心版本為4.19.91-26.4.al74.19.91-26.5.al74.19.91-26.6.al7時,如果sched_group_identity_enabled已經被置為1,並且有cgroup的bvt被置為非零值,讀取/proc/sys/kernel/sched_group_identity_enabled會報error,這是介面讀取bug,不影響正常使用。4.19.91-27.al7以上版本的核心已修複該問題。

    不涉及

    0

資訊輸出說明

在使用Group Identity功能期間,您可以運行以下命令,查看多維度參數資訊。

cat /proc/sched_debug

輸出的參數說明如下:

參數

說明

nr_high_running

當前CPU上啟動並執行ID_HIGHCLASS任務數量。

nr_under_running

當前CPU上啟動並執行ID_UNDERCLASS任務數量。

nr_expel_immune

當前CPU上啟動並執行非ID_UNDERCLASS任務數量。

smt_expeller

當前CPU是否有ID_SMT_EXPELLER任務在運行。參數值為1表示有;參數值為0表示無。

on_expel

SMT調度器的對端是否有ID_SMT_EXPELLER任務在運行。參數值為1表示有;參數值為0表示無。

high_exec_sum

當前CPU上ID_HIGHCLASS任務的累計已耗用時間。

under_exec_sum

當前CPU上ID_UNDERCLASS任務的累計已耗用時間。

h_nr_expel_immune

當前cfs_rq上啟動並執行非ID_UNDERCLASS任務數量。

expel_start

CPU在驅逐任務的開始階段,兩個紅/黑樹狀結構結構的最小虛擬已耗用時間的差距。

expel_spread

由於CPU驅逐狀態造成的兩個紅/黑樹狀結構結構最小虛擬已耗用時間的累計差距。

min_under_vruntime

低優先順序紅/黑樹狀結構結構的最小虛擬已耗用時間。