全部產品
Search
文件中心

Elastic GPU Service:通過YUM方式快速安裝NVIDIA Tesla驅動(Alibaba Cloud Linux 3)

更新時間:Aug 21, 2024

針對Alibaba Cloud Linux 3系統的GPU計算型執行個體,如果建立執行個體時未自動安裝NVIDIA Tesla驅動,通過手動方式安裝該驅動時,需要您先下載軟體包,然後編譯安裝並配置CUDA等組件,操作比較繁瑣,而採用YUM方式可以快速安裝NVIDIA Tesla驅動及相關組件(例如CUDA、PyTorch以及TensorFlow等),可以更快更好地發揮GPU的高效能運算能力,或提供更流暢的圖形顯示效果。

說明

龍蜥社區在Anolis OS上提供了AI相關組件,Alibaba Cloud Linux 3是從Anolis 8系統基礎上發展出來的,其與Anolis 8相容,因此可以直接在Alibaba Cloud Linux 3安裝Anolis 8的軟體包(例如NVIDIA Tesla驅動、CUDA、PyTorch以及TensorFlow等),更多資訊,請參見OpenAnolis龍蜥社區。其中,通過本文安裝的NVIDIA Tesla驅動版本為525.105.17、CUDA版本為11.4,PyTorch版本為1.10.1、TensorFlow版本為2.5.0。

準備工作

說明

本文僅適用於Alibaba Cloud Linux 3作業系統的GPU計算型執行個體,且建立該執行個體時未同步自動安裝NVIDIA Tesla驅動,更多資訊,請參見GPU計算型

安裝NVIDIA Tesla驅動前,請先準備GPU執行個體,然後配置epao倉庫便於擷取更多軟體包,並為當前作業系統的核心安裝kernel-devel包。具體操作如下:

  1. 建立GPU執行個體。

    本文以GPU計算型執行個體gn6i為例,該執行個體的作業系統為Alibaba Cloud Linux 3,且未安裝NVIDIA Tesla驅動。具體操作,請參見建立GPU執行個體

  2. 遠端連線GPU執行個體。

    具體操作,請參見通過密碼或密鑰認證登入Linux執行個體

  3. 執行以下命令,配置epao倉庫以擷取更多軟體包。

    sudo yum install -y anolis-epao-release
  4. 執行以下命令,確認當前作業系統核心的kernel-devel包是否已安裝。

    sudo rpm -qa | grep kernel-devel

    顯示結果如下圖所示時,表示作業系統核心的kernel-devel包已安裝,則操作結束。

    kernel-devel.jpg

    否則執行kernel-devel包的安裝操作。

    安裝當前作業系統核心的kernel-devel包

    1. 執行uname -r命令,查看當前作業系統的核心版本。

      核心版本.jpg

    2. 執行以下命令,安裝當前作業系統核心的kernel-devel包。

      本樣本以核心版本號碼為5.10.134-16.3.al8.x86_64為例,請替換為您實際使用的核心版本號碼。

      sudo yum install -y kernel-devel-5.10.134-16.3.al8.x86_64

操作步驟

在安裝NVIDIA Tesla驅動時,通常會同時安裝CUDA、PyTorch 和TensorFlow組件,該組件都是用於加速深度學習和機器學習任務的工具。

  1. 執行以下命令,安裝NVIDIA Tesla驅動。

    sudo yum install -y nvidia-driver nvidia-driver-cuda

    Dingtalk_20240808175720.jpg

  2. 安裝CUDA Toolkit。

    1. 執行以下命令,安裝CUDA Toolkit。

      sudo yum install -y cuda
    2. 執行ll /usr/local命令,查看CUDA Toolkit版本。

      20240812154944.jpg

  3. 執行以下命令,安裝PyTorch。

    sudo yum install -y pytorch

    Dingtalk_20240808184042.jpg

  4. 執行以下命令,安裝TensorFlow。

    sudo yum install -y tensorflow

    Dingtalk_20240808184328.jpg

測實驗證

  • 檢查版本

    執行nvidia-smi命令,如果驅動及組件已成功安裝,則可以查看已安裝的NVIDIA Tesla驅動版本。

    Dingtalk_20240808184441.jpg

  • 測試CUDA

    1. 執行cd命令,進入測試範例目錄。

      在目錄/usr/local/cuda-11.4/extras/demo_suite/中存在一些測試範例程式,例如CUDA樣本程式deviceQuery

      image

    2. 執行sudo ./deviceQuery命令,查看CUDA的相關資訊。

      例如紋理記憶體、常量記憶體、共用記憶體等資訊。

      Dingtalk_20240808184909.jpg