建立GPU執行個體時自動安裝或載入Tesla驅動 - Elastic GPU Service

針對通用計算情境或圖形加速情境，您可以在建立GPU執行個體時自動安裝或載入Tesla驅動，也可以在建立GPU執行個體後手動安裝Tesla驅動，配備了驅動的GPU執行個體才能提供更好的計算效能和圖形渲染能力。本文介紹如何在建立GPU執行個體時自動安裝或載入Tesla驅動。

驅動安裝方式

選擇不同安裝方式自動安裝或載入Tesla驅動來滿足通用計算情境或圖形加速情境的效能需求。

安裝方式	說明	相關連結
公用鏡像方式	建立GPU執行個體時，您選擇了公用鏡像並同時選中安裝GPU驅動選項。	通過公用鏡像自動安裝驅動
自動安裝指令碼方式	建立GPU執行個體時，在鏡像地區未選中安裝GPU驅動選項，但在自訂資料地區輸入自動安裝指令碼來安裝NVIDIA Tesla驅動。	通過自動安裝指令碼方式安裝驅動

通過公用鏡像自動安裝驅動

特定的Linux作業系統公用鏡像支援選擇安裝GPU驅動選項，如果選擇公用鏡像後同時選中安裝GPU驅動選項，則建立GPU執行個體後會自動安裝Tesla驅動。

前往執行個體建立頁。
選擇自訂購買頁簽。

按需選擇付費類型、地區、網路及可用性區域、執行個體規格、鏡像等配置。

除執行個體規格和鏡像外，如需瞭解其他配置項的詳情，請參見配置項說明。支援建立GPU執行個體時同步安裝Tesla驅動的執行個體、鏡像及驅動版本對應關係如下：

說明

NVIDIA Tesla驅動用於驅動物理GPU，配合CUDA、cuDNN庫可以高效地使用GPU，安裝NVIDIA Tesla驅動會同時安裝CUDA和cuDNN庫。如果您的業務屬於新的業務系統，建議選擇最新版本的Tesla驅動、CUDA、cuDNN庫。

支援的執行個體規格	支援的公用鏡像版本	NVIDIA Tesla驅動版本	CUDA版本	cuDNN版本
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i gn8is、ebmgn8is、gn8v、ebmgn8v	Alibaba Cloud Linux 2、Linux3 Ubuntu 22.04、20.04、18.04 Centos 8.x、7.x 說明 ebmgn7e不支援選擇Ubuntu 18.04版本的鏡像。	550.90.07	12.4.1	9.2.0.82
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i gn8is、ebmgn8is	Alibaba Cloud Linux 2、Alibaba Cloud Linux 3 Ubuntu 20.04、18.04 CentOS 8.x、7.x 說明 ebmgn7e不支援選擇Ubuntu 18.04版本的鏡像。	535.154.05	12.1.1	8.9.7.29
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Alibaba Cloud Linux 2、Alibaba Cloud Linux 3 Ubuntu 20.04、18.04 CentOS 8.x、7.x	525.105.17	12.0.1	8.9.1.23
gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Alibaba Cloud Linux 2、Alibaba Cloud Linux 3 Ubuntu 20.04、18.04、16.04 CentOS 8.x、7.x Debian 10.10	470.161.03	11.4.1	8.2.4
gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Alibaba Cloud Linux 2 Ubuntu 20.04、18.04、16.04 CentOS 8.x、7.x	460.91.03	11.2.2	8.1.1
gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Alibaba Cloud Linux 2 Ubuntu 20.04、18.04、16.04 CentOS 8.x、7.x	460.91.03	11.0.2	8.1.1 8.0.4
gn6v、gn6i、gn6e、gn5、gn5i ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Alibaba Cloud Linux 2 Ubuntu 18.04、16.04 CentOS 8.x、7.x	460.91.03	10.2.89	8.1.1 8.0.4 7.6.5
gn6v、gn6i、gn6e、gn5、gn5i ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Ubuntu 18.04、16.04 CentOS 7.x	450.80.02 440.64.00	10.1.168	8.0.4 7.6.5 7.5.0
gn6v、gn6i、gn6e、gn5、gn5i ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i	Ubuntu 18.04、16.04 CentOS 7.x	450.80.02 440.64.00	10.0.130	7.6.5 7.5.0 7.4.2 7.3.1

重要

如果執行個體建立完成後需要更換作業系統，請您確保使用支援自動安裝Tesla驅動的公用鏡像。如果您選擇了不支援自動安裝Tesla驅動的公用鏡像，請先取消自動安裝Tesla驅動功能，具體操作，請參見更換作業系統時如何取消自動安裝Tesla驅動功能。
如果您通過pip3 install torch安裝了版本為2.1.2的PyTorch，則需要安裝版本為12.1的CUDA，否則在使用PyTorch過程中會報錯，更多資訊，請參見使用PyTorch時出現“undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12”報錯。

以gn7i執行個體為例，在鏡像地區的公用鏡像頁簽下，選擇Linux作業系統及版本（例如Alibaba Cloud Linux 3.2104 LTS 64位）時，選中安裝GPU驅動選項，繼續依次選擇CUDA版本、Driver版本以及cuDNN版本，則建立執行個體後會同步安裝NVIDIA Tesla驅動。

執行個體建立或啟動後，Tesla驅動的相關說明如下：

自動安裝Tesla驅動耗時受不同執行個體規格的內網頻寬和CPU核心數影響，大約需要10～20分鐘。您可以遠端連線執行個體並查看安裝過程，也可以在安裝完成後查看安裝日誌/root/auto_install/auto_install.log。安裝過程中的顯示效果如下表所示：

安裝過程	顯示效果
正在安裝	顯示安裝進度條。
安裝成功	安裝結果提示ALL INSTALL OK。
安裝失敗	安裝結果提示INSTALL FAIL。

重要

在安裝過程中無法使用GPU時，請勿對執行個體進行任何操作。如果安裝了GPU某些相關軟體，則會由於自動安裝失敗而導致執行個體不可用。

按照頁面提示，完成訂單支付。

通過自動安裝指令碼方式安裝驅動

在建立GPU執行個體時，如果在鏡像地區未選中安裝GPU驅動選項，則您可以在自訂資料地區輸入自動安裝指令碼來安裝NVIDIA Tesla驅動。

指令碼參數設定說明

使用自動安裝指令碼時，您需要根據實際業務情境修改如下參數。

根據您所建立的執行個體規格和鏡像，修改對應的Tesla驅動、CUDA和cuDNN庫版本。詳細的版本支援情況，請參見通過公用鏡像自動安裝驅動中選擇公用鏡像時Tesla驅動支援的鏡像版本和執行個體規格。

以修改Tesla驅動版本為470.161.03、CUDA版本為11.4.1、cuDNN版本為8.2.4為例，樣本如下：

DRIVER_VERSION="470.161.03"
CUDA_VERSION="11.4.1"
CUDNN_VERSION="8.2.4"

操作步驟

前往執行個體建立頁。
選擇自訂購買頁簽。
按需選擇付費類型、地區、網路及可用性區域、執行個體規格、鏡像、自訂資料等配置。
如需瞭解其他配置項，請參見配置項說明。

在進階選項（選填）的自訂資料地區內，手動輸入已準備的指令碼內容。

您可以自行準備自動安裝指令碼，關於自動安裝指令碼參數設定的詳細說明，請參見指令碼參數設定說明。

本指令碼以使用.run安裝包方式安裝Tesla驅動等模組為例。指令碼樣本如下所示：

#!/bin/sh

#Please input version to install
DRIVER_VERSION="550.90.07"
CUDA_VERSION="12.4.1"
CUDNN_VERSION="9.2.0.82"
IS_INSTALL_eRDMA="FALSE"
IS_INSTALL_RDMA="FALSE"
INSTALL_DIR="/root/auto_install"

#using .run to install driver and cuda
auto_install_script="auto_install_v4.0.sh"

script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
echo $script_download_url

rm -rf $INSTALL_DIR
mkdir -p $INSTALL_DIR
cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA

按照頁面提示，完成訂單支付。
說明
- 如果調用RunInstances介面來建立GPU執行個體，則您只能通過UserData參數上傳自動安裝指令碼來安裝NVIDIA Tesla驅動，更多資訊，請參見RunInstances。
- 在建立GPU執行個體時，如果未同時自動安裝NVIDIA Tesla驅動，則可在GPU執行個體建立後手動執行自動安裝指令碼來安裝Tesla驅動等軟體。即通過SSH登入執行個體後，在執行個體內編輯一個檔案，然後將自動安裝指令碼內容複寫到執行個體內並作為Shell指令碼執行。關於執行個體串連方式的介紹，請參見ECS遠端連線方式概述。

Elastic GPU Service：建立GPU執行個體時自動安裝或載入Tesla驅動