為節點安裝NVIDIA驅動時,您需要確保驅動版本包含在ACK支援的驅動版本列表中。本文介紹ACK支援的NVIDIA驅動版本列表。
ACK各叢集版本支援的NVIDIA GPU驅動版本列表如下。
如果您使用的OS為3.7及以上版本的Alibaba Cloud Linux 3,那麼請使用版本發布日期為2022年10月以後的GPU驅動。Alibaba Cloud Linux 3.7的發布日期為2023年05月15日。
關於Alibaba Cloud Linux 3鏡像發布記錄,請參見Alibaba Cloud Linux 3鏡像發布記錄。
您可以在NVIDIA官網查詢驅動版本及其發布日期。
目前,510及其以上版本的驅動會偶發性出現XID 119或XID 120錯誤。如遇相關問題,請參見使用GPU時出現XID 119/XID 120錯誤導致GPU掉卡怎麼辦?進行自排查。
ACK會不定期更新不同叢集版本所使用的預設驅動版本,這可能會使得您的叢集中新擴容GPU節點使用的驅動版本有所變化,如果需要避免這種情況,建議您給叢集節點池指定驅動版本,請參見通過指定版本號碼自訂節點GPU驅動版本進行節點池標籤的配置。
叢集版本 | 預設驅動版本 | 是否支援自訂驅動版本能力 | 支援的NVIDIA驅動版本 |
1.30及以上 | 535.161.07 | 是 |
|
1.28 | 535.161.07 | 是 | |
1.26 | 535.161.07 | 是 | |
1.24 | 535.161.07 | 是 | |
1.22 | 535.161.07 | 是 | |
1.20 | 535.161.07 | 是 | |
1.18.8 | 418.181.07 | 是 |
|
1.16.9 | 418.181.07 | 是 | |
1.16.6 | 418.87.01 | 否 | |
1.14.8 | 418.181.07 | 是 |