针对通用计算场景或图形加速场景,您可以在创建GPU实例时自动安装或加载Tesla驱动,也可以在创建GPU实例后手动安装Tesla驱动,配备了驱动的GPU实例才能提供更好的计算性能和图形渲染能力。本文介绍如何在创建GPU实例时自动安装或加载Tesla驱动。
驱动安装方式
选择不同安装方式自动安装或加载Tesla驱动来满足通用计算场景或图形加速场景的性能需求。
安装方式 | 说明 | 相关链接 |
公共镜像方式 | 创建GPU实例时,您选择了公共镜像并同时选中安装GPU驱动选项。 | |
自动安装脚本方式 | 创建GPU实例时,在镜像区域未选中安装GPU驱动选项,但在自定义数据区域输入自动安装脚本来安装NVIDIA Tesla驱动。 |
通过公共镜像自动安装驱动
特定的Linux操作系统公共镜像支持选择安装GPU驱动选项,如果选择公共镜像后同时选中安装GPU驱动选项,则创建GPU实例后会自动安装Tesla驱动。
前往实例创建页。
选择自定义购买页签。
按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。
除实例规格和镜像外,如需了解其他配置项的详情,请参见配置项说明。支持创建GPU实例时同步安装Tesla驱动的实例、镜像及驱动版本对应关系如下:
说明NVIDIA Tesla驱动用于驱动物理GPU,配合CUDA、cuDNN库可以高效地使用GPU,安装NVIDIA Tesla驱动会同时安装CUDA和cuDNN库。如果您的业务属于新的业务系统,建议选择最新版本的Tesla驱动、CUDA、cuDNN库。
支持的实例规格
支持的公共镜像版本
NVIDIA Tesla驱动版本
CUDA版本
cuDNN版本
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2、Linux3
Ubuntu 22.04、20.04、18.04
Centos 8.x、7.x
说明ebmgn7e不支持选择Ubuntu 18.04版本的镜像。
550.90.07
12.4.1
9.2.0.82
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Ubuntu 20.04、18.04
CentOS 8.x、7.x
说明ebmgn7e不支持选择Ubuntu 18.04版本的镜像。
535.154.05
12.1.1
8.9.7.29
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Ubuntu 20.04、18.04
CentOS 8.x、7.x
525.105.17
12.0.1
8.9.1.23
gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2、Alibaba Cloud Linux 3
Ubuntu 20.04、18.04、16.04
CentOS 8.x、7.x
Debian 10.10
470.161.03
11.4.1
8.2.4
gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2
Ubuntu 20.04、18.04、16.04
CentOS 8.x、7.x
460.91.03
11.2.2
8.1.1
gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2
Ubuntu 20.04、18.04、16.04
CentOS 8.x、7.x
460.91.03
11.0.2
8.1.1
8.0.4
gn6v、gn6i、gn6e、gn5、gn5i
ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Alibaba Cloud Linux 2
Ubuntu 18.04、16.04
CentOS 8.x、7.x
460.91.03
10.2.89
8.1.1
8.0.4
7.6.5
gn6v、gn6i、gn6e、gn5、gn5i
ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Ubuntu 18.04、16.04
CentOS 7.x
450.80.02
440.64.00
10.1.168
8.0.4
7.6.5
7.5.0
gn6v、gn6i、gn6e、gn5、gn5i
ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
Ubuntu 18.04、16.04
CentOS 7.x
450.80.02
440.64.00
10.0.130
7.6.5
7.5.0
7.4.2
7.3.1
重要如果实例创建完成后需要更换操作系统,请您确保使用支持自动安装Tesla驱动的公共镜像。如果您选择了不支持自动安装Tesla驱动的公共镜像,请先取消自动安装Tesla驱动功能,具体操作,请参见更换操作系统时如何取消自动安装Tesla驱动功能。
如果您通过
pip3 install torch
安装了版本为2.1.2的PyTorch,则需要安装版本为12.1的CUDA,否则在使用PyTorch过程中会报错,更多信息,请参见使用PyTorch时出现“undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错。
以gn7i实例为例,在镜像区域的公共镜像页签下,选择Linux操作系统及版本(例如Alibaba Cloud Linux 3.2104 LTS 64位)时,选中安装GPU驱动选项,继续依次选择CUDA版本、Driver版本以及cuDNN版本,则创建实例后会同步安装NVIDIA Tesla驱动。
实例创建或启动后,Tesla驱动的相关说明如下:
自动安装Tesla驱动耗时受不同实例规格的内网带宽和CPU核数影响,大约需要10~20分钟。您可以远程连接实例并查看安装过程,也可以在安装完成后查看安装日志/root/auto_install/auto_install.log。安装过程中的显示效果如下表所示:
安装过程
显示效果
正在安装
显示安装进度条。
安装成功
安装结果提示ALL INSTALL OK。
安装失败
安装结果提示INSTALL FAIL。
重要在安装过程中无法使用GPU时,请勿对实例进行任何操作。如果安装了GPU某些相关软件,则会由于自动安装失败而导致实例不可用。
按照页面提示,完成订单支付。
通过自动安装脚本方式安装驱动
在创建GPU实例时,如果在镜像区域未选中安装GPU驱动选项,则您可以在自定义数据区域输入自动安装脚本来安装NVIDIA Tesla驱动。
脚本参数设置说明
使用自动安装脚本时,您需要根据实际业务场景修改如下参数。
根据您所创建的实例规格和镜像,修改对应的Tesla驱动、CUDA和cuDNN库版本。详细的版本支持情况,请参见通过公共镜像自动安装驱动中选择公共镜像时Tesla驱动支持的镜像版本和实例规格。
以修改Tesla驱动版本为470.161.03、CUDA版本为11.4.1、cuDNN版本为8.2.4为例,示例如下:
DRIVER_VERSION="470.161.03"
CUDA_VERSION="11.4.1"
CUDNN_VERSION="8.2.4"
操作步骤
前往实例创建页。
选择自定义购买页签。
按需选择付费类型、地域、网络及可用区、实例规格、镜像、自定义数据等配置。
如需了解其他配置项,请参见配置项说明。
在高级选项(选填)的自定义数据区域内,手动输入已准备的脚本内容。
您可以自行准备自动安装脚本,关于自动安装脚本参数设置的详细说明,请参见脚本参数设置说明。
本脚本以使用
.run
安装包方式安装Tesla驱动等模块为例。脚本示例如下所示:#!/bin/sh #Please input version to install DRIVER_VERSION="550.90.07" CUDA_VERSION="12.4.1" CUDNN_VERSION="9.2.0.82" IS_INSTALL_eRDMA="FALSE" IS_INSTALL_RDMA="FALSE" INSTALL_DIR="/root/auto_install" #using .run to install driver and cuda auto_install_script="auto_install_v4.0.sh" script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}" echo $script_download_url rm -rf $INSTALL_DIR mkdir -p $INSTALL_DIR cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA
按照页面提示,完成订单支付。
说明如果调用RunInstances接口来创建GPU实例,则您只能通过UserData参数上传自动安装脚本来安装NVIDIA Tesla驱动,更多信息,请参见RunInstances。
在创建GPU实例时,如果未同时自动安装NVIDIA Tesla驱动,则可以在GPU实例创建后手动执行自动安装脚本来安装Tesla驱动等软件。即通过SSH登录实例后,在实例内编辑一个文件,然后将自动安装脚本内容复制到实例内并作为Shell脚本执行。关于实例连接方式的介绍,请参见ECS远程连接方式概述。
相关文档
针对通用计算场景或图形加速场景,如果您在创建GPU计算型实例时未自动安装或加载Tesla驱动,则需要在创建GPU实例后,单独安装相应驱动。具体操作,请参见: