針對Alibaba Cloud Linux 3系統的GPU計算型執行個體,如果建立執行個體時未自動安裝NVIDIA Tesla驅動,通過手動方式安裝該驅動時,需要您先下載軟體包,然後編譯安裝並配置CUDA等組件,操作比較繁瑣,而採用YUM方式可以快速安裝NVIDIA Tesla驅動及相關組件(例如CUDA、PyTorch以及TensorFlow等),可以更快更好地發揮GPU的高效能運算能力,或提供更流暢的圖形顯示效果。
龍蜥社區在Anolis OS上提供了AI相關組件,Alibaba Cloud Linux 3是從Anolis 8系統基礎上發展出來的,其與Anolis 8相容,因此可以直接在Alibaba Cloud Linux 3安裝Anolis 8的軟體包(例如NVIDIA Tesla驅動、CUDA、PyTorch以及TensorFlow等),更多資訊,請參見OpenAnolis龍蜥社區。其中,通過本文安裝的NVIDIA Tesla驅動版本為525.105.17、CUDA版本為11.4,PyTorch版本為1.10.1、TensorFlow版本為2.5.0。
準備工作
本文僅適用於Alibaba Cloud Linux 3作業系統的GPU計算型執行個體,且建立該執行個體時未同步自動安裝NVIDIA Tesla驅動,更多資訊,請參見GPU計算型。
安裝NVIDIA Tesla驅動前,請先準備GPU執行個體,然後配置epao倉庫便於擷取更多軟體包,並為當前作業系統的核心安裝kernel-devel包。具體操作如下:
建立GPU執行個體。
本文以GPU計算型執行個體gn6i為例,該執行個體的作業系統為Alibaba Cloud Linux 3,且未安裝NVIDIA Tesla驅動。具體操作,請參見建立GPU執行個體。
遠端連線GPU執行個體。
具體操作,請參見通過密碼或密鑰認證登入Linux執行個體。
執行以下命令,配置epao倉庫以擷取更多軟體包。
sudo yum install -y anolis-epao-release
執行以下命令,確認當前作業系統核心的kernel-devel包是否已安裝。
sudo rpm -qa | grep kernel-devel
顯示結果如下圖所示時,表示作業系統核心的kernel-devel包已安裝,則操作結束。
否則執行kernel-devel包的安裝操作。
操作步驟
在安裝NVIDIA Tesla驅動時,通常會同時安裝CUDA、PyTorch 和TensorFlow組件,該組件都是用於加速深度學習和機器學習任務的工具。
執行以下命令,安裝NVIDIA Tesla驅動。
sudo yum install -y nvidia-driver nvidia-driver-cuda
安裝CUDA Toolkit。
執行以下命令,安裝CUDA Toolkit。
sudo yum install -y cuda
執行
ll /usr/local
命令,查看CUDA Toolkit版本。
執行以下命令,安裝PyTorch。
sudo yum install -y pytorch
執行以下命令,安裝TensorFlow。
sudo yum install -y tensorflow
測實驗證
檢查版本
執行
nvidia-smi
命令,如果驅動及組件已成功安裝,則可以查看已安裝的NVIDIA Tesla驅動版本。測試CUDA
執行
cd
命令,進入測試範例目錄。在目錄
/usr/local/cuda-11.4/extras/demo_suite/
中存在一些測試範例程式,例如CUDA樣本程式deviceQuery
。執行
sudo ./deviceQuery
命令,查看CUDA的相關資訊。例如紋理記憶體、常量記憶體、共用記憶體等資訊。