YUMを使用して、GPUで高速化されたコンピューティングに最適化されたAlibaba Cloud Linux 3インスタンスにNVIDIA Teslaドライバーをすばやくインストールする - Elastic GPU Service

インスタンスの作成時に、GPU高速化されたコンピューティングに最適化されたAlibaba Cloud Linux 3インスタンスにNVIDIA Teslaドライバーが自動的にインストールされない場合は、手動でドライバーをインストールできます。ただし、操作は面倒で、ソフトウェアパッケージのダウンロード、ドライバーのコンパイルとインストール、Compute Unified Device Architecture (CUDA) などの関連コンポーネントの構成が含まれます。 NVIDIA Teslaドライバーと、CUDA、PyTorch、TensorFlowなどの関連コンポーネントをすばやくインストールするには、Yellowdog Updater Modified (YUM) メソッドを使用できます。この方法は、GPUの高性能コンピューティングパワーをよりよく解き放ち、効率を向上させ、よりスムーズなグラフィックス表示効果を提供するのに役立ちます。

説明

OpenAnolisコミュニティは、AnolisオペレーティングシステムでAI関連のコンポーネントを提供しています。 Alibaba Cloud Linux 3はAnolis 8に基づいて開発され、Anolis 8と互換性があります。 NVIDIA Teslaドライバー、CUDA、PyTorch、TensorFlowパッケージなどのAnolis 8ソフトウェアパッケージをAlibaba Cloud Linux 3にインストールできます。詳細については、「OpenAnolisコミュニティ」をご参照ください。このトピックでは、NVIDIA Teslaドライバーバージョン525.105.17、CUDAバージョン11.4、PyTorchバージョン1.10.1、およびTensorFlow 2.5.0のバージョンを使用します。

準備

説明

このトピックは、NVIDIA TeslaドライバーがインストールされていないGPUアクセラレーションコンピューティング最適化Alibaba Cloud Linux 3インスタンスにのみ適用されます。詳細については、「GPU-accelerated compute-optimizedインスタンスファミリー」をご参照ください。

NVIDIA Teslaドライバーをインストールする前に、GPUアクセラレーションコンピューティング最適化インスタンスを作成します。次に、epaoリポジトリを構成して、さらにソフトウェアパッケージを取得し、現在のオペレーティングシステムのカーネル用のkernel-develパッケージをインストールします。以下の手順を実行します。

GPU高速化インスタンスを作成します。
この例では、gn6iインスタンスファミリーのGPU高速計算最適化インスタンスが使用されています。インスタンスのオペレーティングシステムはAlibaba Cloud Linux 3です。 NVIDIA Teslaドライバーはインスタンスにインストールされていません。詳細については、「GPU高速化インスタンスの作成」をご参照ください。
GPU高速化インスタンスに接続します。
詳細については、「パスワードまたはキーを使用したLinuxインスタンスへの接続」をご参照ください。
次のコマンドを実行してepaoリポジトリを設定し、さらにソフトウェアパッケージを取得します。
```
sudo yum install -y anolis-epao-release
```
次のコマンドを実行して、現在のオペレーティングシステムカーネルのkernel-develパッケージがインストールされているかどうかを確認します。
```
sudo rpm -qa | grep kernel-devel
```
次の図に示すコマンド出力が返された場合、オペレーティングシステムカーネルのkernel-develパッケージがインストールされます。
上記のコマンド出力が返されない場合は、kernel-develパッケージをインストールします。
現在のオペレーティングシステムカーネルのkernel-develパッケージのインストール
1. uname -rコマンドを実行して、現在のオペレーティングシステムのカーネルバージョンを照会します。
2. 次のコマンドを実行して、カーネルバージョンのkernel-develパッケージをインストールします。
  この例では、カーネルバージョン5.10.134-16.3.al8.x86_64が使用されています。カーネルバージョンを実際のカーネルバージョンに置き換えます。
```
sudo yum install -y kernel-devel-5.10.134-16.3.al8.x86_64
```

手順

ほとんどの場合、NVIDIA Teslaドライバをインストールすると、CUDA、PyTorch、およびTensorFlowコンポーネントが同時にインストールされます。コンポーネントは、ディープラーニングと機械学習のタスクを高速化するためのツールです。

次のコマンドを実行して、NVIDIA Teslaドライバーをインストールします。
```
sudo yum install -y nvidia-driver nvidia-driver-cuda
```
CUDA Toolkitをインストールします。
1. 次のコマンドを実行してCUDA Toolkitをインストールします。
```
sudo yum install -y cuda
```
2. ll /usr/localコマンドを実行して、CUDA Toolkitのバージョンを表示します。
次のコマンドを実行してPyTorchをインストールします。
```
sudo yum install -y pytorch
```
次のコマンドを実行してTensorFlowをインストールします。
```
sudo yum install -y tensorflow
```

インストール結果の確認

インストールされているNVIDIA Teslaドライバのバージョンを確認する
nvidia-smiコマンドを実行します。ドライバとコンポーネントがインストールされている場合は、インストールされているNVIDIA Teslaドライバのバージョンを確認できます。
テストCUDA
1. cdコマンドを実行して、テストサンプルファイルが保存されているディレクトリに移動します。
  /usr/local/cuda-11.4/extras/demo_suite/ ディレクトリには、deviceQueryという名前のCUDAサンプルプログラムなど、特定のテストサンプルプログラムが含まれます。
2. を実行します。Run theスド /deviceQueryコマンドを実行してCUDA情報を照会します。
  たとえば、コマンドを実行して、テクスチャメモリ、定数メモリ、および共有メモリに関する情報を照会します。