为节点安装NVIDIA驱动时,您需要确保驱动版本包含在ACK支持的驱动版本列表中。本文介绍ACK支持的NVIDIA驱动版本列表。
ACK各集群版本支持的NVIDIA GPU驱动版本列表如下。
如果您使用的OS为3.7及以上版本的Alibaba Cloud Linux 3,那么请使用版本发布日期为2022年10月以后的GPU驱动。Alibaba Cloud Linux 3.7的发布日期为2023年05月15日。
关于Alibaba Cloud Linux 3镜像发布记录,请参见Alibaba Cloud Linux 3镜像发布记录。
您可以在NVIDIA官网查询驱动版本及其发布日期。
目前,510及其以上版本的驱动会偶发性出现XID 119或XID 120错误。如遇相关问题,请参见使用GPU时出现XID 119/XID 120错误导致GPU掉卡怎么办?进行自排查。
ACK会不定期更新不同集群版本所使用的默认驱动版本,这可能会使得您的集群中新扩容GPU节点使用的驱动版本有所变化,如果需要避免这种情况,建议您给集群节点池指定驱动版本,请参见通过指定版本号自定义节点GPU驱动版本进行节点池标签的配置。
集群版本 | 默认驱动版本 | 是否支持自定义驱动版本能力 | 支持的NVIDIA驱动版本 |
1.30及以上 | 535.161.07 | 是 |
|
1.28 | 535.161.07 | 是 | |
1.26 | 535.161.07 | 是 | |
1.24 | 535.161.07 | 是 | |
1.22 | 535.161.07 | 是 | |
1.20 | 535.161.07 | 是 | |
1.18.8 | 418.181.07 | 是 |
|
1.16.9 | 418.181.07 | 是 | |
1.16.6 | 418.87.01 | 否 | |
1.14.8 | 418.181.07 | 是 |