全部產品
Search
文件中心

Elastic GPU Service:建立GPU執行個體時自動安裝或載入Tesla驅動

更新時間:Sep 10, 2024

針對通用計算情境或圖形加速情境,您可以在建立GPU執行個體時自動安裝或載入Tesla驅動,也可以在建立GPU執行個體後手動安裝Tesla驅動,配備了驅動的GPU執行個體才能提供更好的計算效能和圖形渲染能力。本文介紹如何在建立GPU執行個體時自動安裝或載入Tesla驅動。

驅動安裝方式

選擇不同安裝方式自動安裝或載入Tesla驅動來滿足通用計算情境或圖形加速情境的效能需求。

安裝方式

說明

相關連結

公用鏡像方式

建立GPU執行個體時,您選擇了公用鏡像並同時選中安裝GPU驅動選項。

通過公用鏡像自動安裝驅動

自動安裝指令碼方式

建立GPU執行個體時,在鏡像地區未選中安裝GPU驅動選項,但在自訂資料地區輸入自動安裝指令碼來安裝NVIDIA Tesla驅動。

通過自動安裝指令碼方式安裝驅動

通過公用鏡像自動安裝驅動

特定的Linux作業系統公用鏡像支援選擇安裝GPU驅動選項,如果選擇公用鏡像後同時選中安裝GPU驅動選項,則建立GPU執行個體後會自動安裝Tesla驅動。

  1. 前往執行個體建立頁

  2. 選擇自訂購買頁簽。

  3. 按需選擇付費類型、地區、網路及可用性區域、執行個體規格、鏡像等配置。

    除執行個體規格和鏡像外,如需瞭解其他配置項的詳情,請參見配置項說明。支援建立GPU執行個體時同步安裝Tesla驅動的執行個體、鏡像及驅動版本對應關係如下:

    說明

    NVIDIA Tesla驅動用於驅動物理GPU,配合CUDA、cuDNN庫可以高效地使用GPU,安裝NVIDIA Tesla驅動會同時安裝CUDA和cuDNN庫。如果您的業務屬於新的業務系統,建議選擇最新版本的Tesla驅動、CUDA、cuDNN庫。

    支援的執行個體規格

    支援的公用鏡像版本

    NVIDIA Tesla驅動版本

    CUDA版本

    cuDNN版本

    • gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2、Linux3

    • Ubuntu 22.04、20.04、18.04

    • Centos 8.x、7.x

    說明

    ebmgn7e不支援選擇Ubuntu 18.04版本的鏡像。

    550.90.07

    12.4.1

    9.2.0.82

    • gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

    • Ubuntu 20.04、18.04

    • CentOS 8.x、7.x

    說明

    ebmgn7e不支援選擇Ubuntu 18.04版本的鏡像。

    535.154.05

    12.1.1

    8.9.7.29

    • gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

    • Ubuntu 20.04、18.04

    • CentOS 8.x、7.x

    525.105.17

    12.0.1

    8.9.1.23

    • gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

    • Ubuntu 20.04、18.04、16.04

    • CentOS 8.x、7.x

    • Debian 10.10

    470.161.03

    11.4.1

    8.2.4

    • gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2

    • Ubuntu 20.04、18.04、16.04

    • CentOS 8.x、7.x

    460.91.03

    11.2.2

    8.1.1

    • gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2

    • Ubuntu 20.04、18.04、16.04

    • CentOS 8.x、7.x

    460.91.03

    11.0.2

    • 8.1.1

    • 8.0.4

    • gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2

    • Ubuntu 18.04、16.04

    • CentOS 8.x、7.x

    460.91.03

    10.2.89

    • 8.1.1

    • 8.0.4

    • 7.6.5

    • gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Ubuntu 18.04、16.04

    • CentOS 7.x

    • 450.80.02

    • 440.64.00

    10.1.168

    • 8.0.4

    • 7.6.5

    • 7.5.0

    • gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Ubuntu 18.04、16.04

    • CentOS 7.x

    • 450.80.02

    • 440.64.00

    10.0.130

    • 7.6.5

    • 7.5.0

    • 7.4.2

    • 7.3.1

    重要
    • 如果執行個體建立完成後需要更換作業系統,請您確保使用支援自動安裝Tesla驅動的公用鏡像。如果您選擇了不支援自動安裝Tesla驅動的公用鏡像,請先取消自動安裝Tesla驅動功能,具體操作,請參見更換作業系統時,如何取消自動安裝GPU驅動

    • 如果您通過pip3 install torch安裝了版本為2.1.2的PyTorch,則需要安裝版本為12.1的CUDA,否則在使用PyTorch過程中會報錯,更多資訊,請參見在GPU執行個體中使用PyTorch時報錯怎麼辦

    以gn7i執行個體為例,在鏡像地區的公用鏡像頁簽下,選擇Linux作業系統及版本(例如Alibaba Cloud Linux 3.2104 LTS 64位)時,選中安裝GPU驅動選項,繼續依次選擇CUDA版本、Driver版本以及cuDNN版本,則建立執行個體後會同步安裝NVIDIA Tesla驅動。

    Dingtalk_20240906134235.jpg

    執行個體建立或啟動後,Tesla驅動的相關說明如下:

    自動安裝Tesla驅動耗時受不同執行個體規格的內網頻寬和CPU核心數影響,大約需要10~20分鐘。您可以遠端連線執行個體並查看安裝過程,也可以在安裝完成後查看安裝日誌/root/auto_install/auto_install.log。安裝過程中的顯示效果如下表所示:

    安裝過程

    顯示效果

    正在安裝

    顯示安裝進度條。

    安裝成功

    安裝結果提示ALL INSTALL OK

    安裝失敗

    安裝結果提示INSTALL FAIL

    重要

    在安裝過程中無法使用GPU時,請勿對執行個體進行任何操作。如果安裝了GPU某些相關軟體,則會由於自動安裝失敗而導致執行個體不可用。

  4. 按照頁面提示,完成訂單支付。

通過自動安裝指令碼方式安裝驅動

在建立GPU執行個體時,如果在鏡像地區未選中安裝GPU驅動選項,則您可以在自訂資料地區輸入自動安裝指令碼來安裝NVIDIA Tesla驅動。

指令碼參數設定說明

使用自動安裝指令碼時,您需要根據實際業務情境修改如下參數。

根據您所建立的執行個體規格和鏡像,修改對應的Tesla驅動、CUDA和cuDNN庫版本。詳細的版本支援情況,請參見通過公用鏡像自動安裝驅動中選擇公用鏡像時Tesla驅動支援的鏡像版本和執行個體規格。

以修改Tesla驅動版本為470.161.03、CUDA版本為11.4.1、cuDNN版本為8.2.4為例,樣本如下:

DRIVER_VERSION="470.161.03"
CUDA_VERSION="11.4.1"
CUDNN_VERSION="8.2.4"

操作步驟

  1. 前往執行個體建立頁

  2. 選擇自訂購買頁簽。

  3. 按需選擇付費類型、地區、網路及可用性區域、執行個體規格、鏡像、自訂資料等配置。

    如需瞭解其他配置項,請參見配置項說明

  4. 進階選項(選填)自訂資料地區內,手動輸入已準備的指令碼內容。

    您可以自行準備自動安裝指令碼,關於自動安裝指令碼參數設定的詳細說明,請參見指令碼參數設定說明

    本指令碼以使用.run安裝包方式安裝Tesla驅動等模組為例。指令碼樣本如下所示:

    #!/bin/sh
    
    #Please input version to install
    DRIVER_VERSION="550.90.07"
    CUDA_VERSION="12.4.1"
    CUDNN_VERSION="9.2.0.82"
    IS_INSTALL_eRDMA="FALSE"
    IS_INSTALL_RDMA="FALSE"
    INSTALL_DIR="/root/auto_install"
    
    #using .run to install driver and cuda
    auto_install_script="auto_install_v4.0.sh"
    
    script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
    echo $script_download_url
    
    rm -rf $INSTALL_DIR
    mkdir -p $INSTALL_DIR
    cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA

    Dingtalk_20240906131054.jpg

  5. 按照頁面提示,完成訂單支付。

    說明
    • 如果調用RunInstances介面來建立GPU執行個體,則您只能通過UserData參數上傳自動安裝指令碼來安裝NVIDIA Tesla驅動,更多資訊,請參見RunInstances

    • 在建立GPU執行個體時,如果未同時自動安裝NVIDIA Tesla驅動,則可以在GPU執行個體建立後手動執行自動安裝指令碼來安裝Tesla驅動等軟體。即通過SSH登入執行個體後,在執行個體內編輯一個檔案,然後將自動安裝指令碼內容複寫到執行個體內並作為Shell指令碼執行。關於執行個體串連方式的介紹,請參見ECS遠端連線方式概述

相關文檔

針對通用計算情境或圖形加速情境,如果您在建立GPU計算型執行個體時未自動安裝或載入Tesla驅動,則需要在建立GPU執行個體後,單獨安裝相應驅動。具體操作,請參見: