當您的叢集已經安裝共用GPU調度組件,但節點GPU驅動版本與叢集中已存在的cGPU版本不相容,或者節點作業系統版本與叢集中已存在的cGPU版本不相容時,您需要將共用GPU調度組件升級到最新版本。
步驟一:確認共用GPU調度組件的升級方式
您需要根據叢集共用GPU調度組件(ack-ai-installer)的安裝方式選擇升級方式。安裝共用GPU調度組件有兩種方式。
通過雲原生AI套件安裝(推薦):在雲原生AI套件頁面安裝共用GPU調度組件ack-ai-installer。具體操作,請參見安裝共用GPU調度組件。
通過應用目錄安裝(該方式已關閉):在應用市場的應用目錄頁面安裝共用GPU調度組件ack-ai-installer。目前該安裝方式已關閉。但對於已通過該方式安裝的存量組件,您仍然可以在此方式完成組件的升級。
重要如果您卸載了叢集中通過此方式安裝的組件,再次安裝時,您需要開通雲原生AI套件服務並完成安裝。
步驟二:升級組件
通過雲原生AI套件升級
登入Container Service管理主控台,在左側導覽列選擇叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在組件列表地區,定位ack-ai-installer組件並在操作列單擊升級。
通過應用目錄升級
登入Container Service管理主控台,在左側導覽列選擇叢集。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇 。
在Helm列表,定位ack-ai-installer組件,在操作列單擊更新,根據頁面指引選擇最新的Chart版本並完成組件更新。
重要如需進行Chart的自訂配置,請在修改配置後確認組件的更新。
更新後,請在Helm列表確認ack-ai-installer組件的Chart版本為最新版本。
步驟三:升級存量節點
ack-ai-installer組件升級完成後,並不會升級存量節點的cGPU版本。請參見下方說明,判斷節點是否啟用cGPU隔離功能。
若叢集中包含啟用了cGPU隔離功能的GPU節點,還需升級存量節點的cGPU版本。具體操作,請參見升級節點cGPU版本。
若叢集中不存在已開啟cGPU隔離能力的節點,則忽略此步驟。
說明若節點上存在標籤
ack.node.gpu.schedule=cgpu
或ack.node.gpu.schedule=core_mem
,代表已啟用cGPU隔離能力。升級存量節點cGPU版本需要停掉節點上的所有業務Pod,請根據業務情境,在低峰期執行此操作。