全部產品
Search
文件中心

Container Service for Kubernetes:升級共用GPU調度組件

更新時間:Nov 29, 2024

當您的叢集已經安裝共用GPU調度組件,但節點GPU驅動版本與叢集中已存在的cGPU版本不相容,或者節點作業系統版本與叢集中已存在的cGPU版本不相容時,您需要將共用GPU調度組件升級到最新版本。

步驟一:確認共用GPU調度組件的升級方式

您需要根據叢集共用GPU調度組件(ack-ai-installer)的安裝方式選擇升級方式。安裝共用GPU調度組件有兩種方式。

  • 通過雲原生AI套件安裝(推薦):在雲原生AI套件頁面安裝共用GPU調度組件ack-ai-installer。具體操作,請參見安裝共用GPU調度組件

  • 通過應用目錄安裝(該方式已關閉):在應用市場應用目錄頁面安裝共用GPU調度組件ack-ai-installer。目前該安裝方式已關閉。但對於已通過該方式安裝的存量組件,您仍然可以在此方式完成組件的升級。

    重要

    如果您卸載了叢集中通過此方式安裝的組件,再次安裝時,您需要開通雲原生AI套件服務並完成安裝。

如何確定叢集中共用GPU調度組件的安裝方式?

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > 雲原生AI套件

  3. 確認雲原生AI套件頁面是否顯示開通服務字樣。

    如有,則表明共用GPU調度組件通過應用目錄完成了安裝,反之則是通過雲原生AI套件完成了安裝。

步驟二:升級組件

通過雲原生AI套件升級

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > 雲原生AI套件

  3. 組件列表地區,定位ack-ai-installer組件並在操作列單擊升級

通過應用目錄升級

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > Helm

  3. 在Helm列表,定位ack-ai-installer組件,在操作列單擊更新,根據頁面指引選擇最新的Chart版本並完成組件更新。

    重要

    如需進行Chart的自訂配置,請在修改配置後確認組件的更新。

    更新後,請在Helm列表確認ack-ai-installer組件的Chart版本為最新版本。

步驟三:升級存量節點

ack-ai-installer組件升級完成後,並不會升級存量節點的cGPU版本。請參見下方說明,判斷節點是否啟用cGPU隔離功能。

  • 若叢集中包含啟用了cGPU隔離功能的GPU節點,還需升級存量節點的cGPU版本。具體操作,請參見升級節點cGPU版本

  • 若叢集中不存在已開啟cGPU隔離能力的節點,則忽略此步驟。

    說明
    • 若節點上存在標籤ack.node.gpu.schedule=cgpuack.node.gpu.schedule=core_mem,代表已啟用cGPU隔離能力。

    • 升級存量節點cGPU版本需要停掉節點上的所有業務Pod,請根據業務情境,在低峰期執行此操作。