NVIDIA TeslaドライバーがインストールされているGPU高速化インスタンスは、特定のシナリオで高性能なコンピューティング機能を提供したり、よりスムーズなグラフィック表示効果を提供したりできます。 シナリオには、ディープラーニングやAIシナリオなどの一般的なコンピューティングシナリオと、Open graphics Library (OpenGL) 、Direct3D、クラウドゲームシナリオなどのグラフィックスアクセラレーションシナリオが含まれます。 GPUアクセラレーションコンピューティング最適化Linuxインスタンスの作成時にTeslaドライバーをインストールしない場合は、インスタンスの作成後にTeslaドライバーを手動でインストールする必要があります。 このトピックでは、GPUアクセラレーションコンピューティング最適化LinuxインスタンスにTeslaドライバーを手動でインストールする方法について説明します。
GPUアクセラレーションコンピューティング最適化インスタンスがAlibaba Cloud Linux 3オペレーティングシステムを実行し、インスタンスの作成時にTeslaドライバーが自動的にインストールされない場合、YUMを使用してドライバーをインストールできます。 詳細については、「YUMを使用したNVIDIA TeslaドライバーのGPUアクセラレーションコンピューティング最適化Alibaba Cloud Linux 3インスタンスへの迅速なインストール」をご参照ください。
手順
この手順は、すべてのGPU高速化コンピューティング最適化Linuxインスタンスに適用されます。 詳細については、「GPU-accelerated compute-optimizedインスタンスファミリー」をご参照ください。 インストールできるのは、インスタンスと同じオペレーティングシステムを実行するTeslaドライバのみです。 たとえば、GPUアクセラレーションコンピューティング最適化Linuxインスタンスには、Linux Teslaドライバーのみをインストールできます。
ステップ1: Teslaドライバーをダウンロードする
をご覧ください。 NVIDIAドライバのダウンロードページ。
説明NVIDIAドライバーをインストールおよび構成する方法の詳細については、「NVIDIA CUDAインストールガイドFor Linux」をご参照ください。
検索条件を設定し、検索インスタンスに適したドライバーを検索します。
検索条件を次の表に示します。
条件
説明
例
プロダクトカテゴリ
制品シリーズ
プロダクト
GPUアクセラレーションインスタンスのGPUに基づいて、製品カテゴリ、製品シリーズ、および製品を選択します。
説明インスタンスID、インスタンスタイプ、オペレーティングシステムなど、GPU高速化インスタンスの詳細を表示する方法については、「インスタンス情報の表示」をご参照ください。
データセンター /テスラ
Aシリーズ
NVIDIA A10
オペレーティングシステム
インスタンスのイメージに基づいてLinuxバージョンを選択します。
Linux 64ビット
CUDA Toolkitのバージョン
CUDA Toolkitのバージョンを選択します。
11.4
言語
ドライバーの言語を選択します。
中国語 (簡体字)
結果ページで、[その他のバージョンを表示] をクリックします。
ダウンロードするドライバーを見つけて、ドライバー名の横にある [表示] をクリックします。
この例では、ドライバーバージョンが470.161.03でCUDA Toolkitバージョンが11.4のData Center Driver for Linux x64ドライバーが選択されています。
ダウンロードするドライバーの詳細ページで、[ダウンロード] を右クリックし、[URLのコピー] を選択します。
GPU高速化コンピューティング最適化Linuxインスタンスに接続します。
詳細については、「パスワードまたはキーを使用したLinuxインスタンスへの接続」をご参照ください。
次のコマンドを実行して、ドライバインストールパッケージをダウンロードします。
サンプルコードのURLを、サブステップ5で取得したURLに置き換えます。
wget https://us.download.nvidia.com/tesla/470.161.03/NVIDIA-Linux-x86_64-470.161.03.run
ステップ2: Teslaドライバをインストールする
Teslaドライバーをインスタンスにインストールする方法は、インスタンスのOSによって異なります。 次のセクションでは、異なるOSにTeslaドライバーをインストールする方法について説明します。
CentOS
次のコマンドを実行して、kernel-develパッケージとkernel-headersパッケージがGPUアクセラレーションインスタンスにインストールされているかどうかを確認します。
sudo rpm -qa | grep $(uname -r)
コマンド出力にkernel-develパッケージとkernel-headersパッケージのバージョン情報が含まれている場合は、パッケージがインストールされます。 サンプルコマンド出力:
kernel-3.10.0-1062.18.1.el7.x86_64 kernel-devel-3.10.0-1062.18.1.el7.x86_64 kernel-headers-3.10.0-1062.18.1.el7.x86_64
コマンド出力にkernel-devel (kernel-devel-*) およびkernel-headers (kernel-headers-*) パッケージのバージョン情報が含まれていない場合は、必要なバージョンのパッケージをダウンロードしてインストールする必要があります。 詳細については、「kernel-devel」および「kernel-headers」をご参照ください。
重要kernel-develのバージョンがカーネルのバージョンと異なる場合、ドライバーにRPMパッケージマネージャー (RPM) をインストールするとコンパイルエラーが発生します。 したがって、kernel-develバージョンをダウンロードする前に、コマンド出力のkernelバージョンを確認してください。 上記のコマンド出力では、カーネルのバージョンは3.10.0-1062.18.1.el7.x86_64です。
インストールパッケージの権限をTeslaドライバーに付与し、ドライバーをインストールします。
この例では、Linuxの64ビットTeslaドライバが使用されています。 を使用することを推奨します。Teslaドライバのインストールパッケージ (NVIDIA-Linux-x86_64-xxxx.runパッケージなど) を実行します。 次のコマンドを実行して、インストールパッケージに実行権限を付与し、Teslaドライバーをインストールします。
説明Teslaドライバのインストールパッケージが、次のような別の形式である場合。debまたは。rpm形式は、インストール方法についてはNVIDIA CUDA Installation Guide for Linuxを参照してください。
sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run
sudo sh NVIDIA-Linux-x86_64-xxxx.run
次のコマンドを実行して、Teslaドライバがインストールされているかどうかを確認します。
nvidia-smi
次のコマンド出力が表示されると、Teslaドライバがインストールされます。
(オプション) NVIDIA persistence Daemonを使用して、永続化モード (Persistence-M) を有効にします。
Teslaドライバがインストールされた後、Persistence-Mはデフォルトで無効 (
オフ
) 状態になります。 Teslaドライバーは、Persistence-Mを有効にすると、より安定したパフォーマンスを実現できます。 ビジネスの継続性を確保するために、NVIDIA Persistence Daemonを使用してPersistence-Mを有効にすることを推奨します。 詳細については、「NVIDIAの公式WebサイトのPersistence Daemon」をご参照ください。説明Persistence-Mは、GPUを初期化状態に保つユーザー設定可能なドライバプロパティの用語です。
nvidia-smi -pm 1
コマンドを実行してPersistence-Mを有効にすると、問題が発生します。 たとえば、インスタンスの再起動後もPersistence-Mは無効状態のままです。 詳細については、「GPUアクセラレーションコンピューティング最適化インスタンスの再起動後、nvidia-smi -pm 1コマンドを実行してPersistence-Mを有効にするために実行した操作が有効にならず、ECC状態の設定に失敗する」をご参照ください。 問題を修正するにはどうすればよいですか? NVIDIA Persistenceデーモンを使用してPersistence-Mを有効にすることを推奨します。
次のコマンドを実行して、NVIDIA Persistence Daemonを実行します。
sudo nvidia-persistenced --user username # Replace username with your username.
次のコマンドを実行して、Persistence-Mのステータスを表示します。
nvidia-smi
次のコマンド出力が表示されている場合、Persistence-Mは有効 (
オン
) 状態です。
(オプション) システムを再起動した後、Persistence-Mを有効にします。
システムを再起動すると、Persistence-Mの有効 (
オン
) 状態が無効になります。 Persistence-Mを有効にするには、次の操作を実行します。Teslaドライバーインストールパッケージをインストールして、NVIDIAが提供するサンプルスクリプトやインストーラスクリプトなどのインストールスクリプトを
/usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2
のパスにインストールします。次のコマンドを実行して、NVIDIAが提供するインストールスクリプトを解凍してインストールします。
cd /usr/share/doc/NVIDIA_GLX-1.0/samples/ sudo tar xf nvidia-persistenced-init.tar.bz2 cd nvidia-persistenced-init sudo sh install.sh
次のコマンドを実行して、NVIDIA Persistence Daemonが期待どおりに実行されるかどうかを確認します。
sudo systemctl status nvidia-persistenced
次のコマンド出力が表示された場合、NVIDIA Persistenceデーモンは期待どおりに実行されます。
説明NVIDIA Persistence Daemonインストールスクリプトをオペレーティングシステムに基づいて調整し、NVIDIA Persistence Daemonが期待どおりに機能するようにすることができます。
次のコマンドを実行して、Persistence-Mが有効 (
オン
) 状態であることを確認します。nvidia-smi
(オプション) 次のコマンドを実行して、NVIDIA Persistence Daemonを無効にします。
ビジネス要件に基づいて、NVIDIA Persistence Daemonを無効にできます。
sudo systemctl stop nvidia-persistenced sudo systemctl disable nvidia-persistenced
(条件付きで必要) ドライバーのバージョンに一致するNVIDIA Fabric Managerをインストールします。 この操作は、GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合に必要です。.
重要GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合ドライバのバージョンに一致するNVIDIA Fabric Managerをインストールする必要があります。 それ以外の場合は、インスタンスを期待どおりに使用できません。
GPUアクセラレーションインスタンスがebmgn7またはebmgn7eに属していない場合は、この操作をスキップできます。 インスタンスファミリー
NVIDIA Fabric Managerをインストールします。
ソースコードまたはインストールパッケージを使用して、NVIDIA Fabric Managerをインストールできます。 NVIDIA Fabric Managerのインストールに必要なコマンドは、オペレーティングシステムによって異なります。 次の例では、ドライバーのバージョンは460.91.03で、CentOS 7.xとCentOS 8.xが使用されています。
driver_version
を、手順1: Teslaドライバーのダウンロードでダウンロードしたドライバーのバージョンに置き換えます。ソースコード
インストールパッケージ
次のコマンドを実行してNVIDIA Fabric Managerを起動します。
sudo systemctl enable nvidia-fabricmanager sudo systemctl start nvidia-fabricmanager
次のコマンドを実行して、NVIDIA Fabric Managerがインストールされているかどうかを確認します。
systemctl status nvidia-fabricmanager
次のコマンド出力が表示された場合、NVIDIA Fabric Managerがインストールされています。
Ubuntuなどの他のLinuxディストリビューション
インストールパッケージの権限をTeslaドライバーに付与し、ドライバーをインストールします。
この例では、Linuxの64ビットTeslaドライバが使用されています。 を使用することを推奨します。Teslaドライバのインストールパッケージ (NVIDIA-Linux-x86_64-xxxx.runパッケージなど) を実行します。 次のコマンドを実行して、インストールパッケージに実行権限を付与し、Teslaドライバーをインストールします。
説明Teslaドライバのインストールパッケージが、次のような別の形式である場合。debまたは。rpm形式は、インストール方法についてはNVIDIA CUDA Installation Guide for Linuxを参照してください。
sudo chmod + x NVIDIA-Linux-x86_64-xxxx.run
sudo sh NVIDIA-Linux-x86_64-xxxx.run
次のコマンドを実行して、Teslaドライバがインストールされているかどうかを確認します。
nvidia-smi
次のコマンド出力が表示されると、Teslaドライバがインストールされます。
(オプション) NVIDIA persistence Daemonを使用して、永続化モード (Persistence-M) を有効にします。
Teslaドライバがインストールされた後、Persistence-Mはデフォルトで無効 (
オフ
) 状態になります。 Teslaドライバーは、Persistence-Mを有効にすると、より安定したパフォーマンスを実現できます。 ビジネスの継続性を確保するために、NVIDIA Persistence Daemonを使用してPersistence-Mを有効にすることを推奨します。 詳細については、「NVIDIAの公式WebサイトのPersistence Daemon」をご参照ください。説明Persistence-Mは、GPUを初期化状態に保つユーザー設定可能なドライバプロパティの用語です。
nvidia-smi -pm 1
コマンドを実行してPersistence-Mを有効にすると、問題が発生します。 たとえば、インスタンスの再起動後もPersistence-Mは無効状態のままです。 詳細については、「GPUアクセラレーションコンピューティング最適化インスタンスの再起動後、nvidia-smi -pm 1コマンドを実行してPersistence-Mを有効にするために実行した操作が有効にならず、ECC状態の設定に失敗する」をご参照ください。 問題を修正するにはどうすればよいですか? NVIDIA Persistenceデーモンを使用してPersistence-Mを有効にすることを推奨します。
次のコマンドを実行して、NVIDIA Persistence Daemonを実行します。
sudo nvidia-persistenced -- user username # ユーザー名をユーザー名に置き換えます。
次のコマンドを実行して、Persistence-Mのステータスを表示します。
nvidia-smi
次のコマンド出力が表示されている場合、Persistence-Mは有効 (
オン
) 状態です。
(オプション) システムを再起動した後、Persistence-Mを有効にします。
システムを再起動すると、Persistence-Mの有効 (
オン
) 状態が無効になります。 Persistence-Mを有効にするには、次の操作を実行します。Teslaドライバーインストールパッケージをインストールして、NVIDIAが提供するサンプルスクリプトやインストーラスクリプトなどのインストールスクリプトを
/usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2
のパスにインストールします。次のコマンドを実行して、NVIDIAが提供するインストールスクリプトを解凍してインストールします。
cd /usr/share/doc/NVIDIA_GLX-1.0 /サンプル / sudo tar xf nvidia-persistenced-init.tar.bz2 cd nvidia-persistenced-init sudo sh install.sh
次のコマンドを実行して、NVIDIA Persistence Daemonが期待どおりに実行されるかどうかを確認します。
sudo systemctlステータスnvidia-persistenced
次のコマンド出力が表示された場合、NVIDIA Persistenceデーモンは期待どおりに実行されます。
説明NVIDIA Persistence Daemonインストールスクリプトをオペレーティングシステムに基づいて調整し、NVIDIA Persistence Daemonが期待どおりに機能するようにすることができます。
次のコマンドを実行して、Persistence-Mが有効 (
オン
) 状態であることを確認します。nvidia-smi
(オプション) 次のコマンドを実行して、NVIDIA Persistence Daemonを無効にします。
ビジネス要件に基づいて、NVIDIA Persistence Daemonを無効にできます。
sudo systemctl stop nvidia-永続化 sudo systemctl disable nvidia-persistenced
(条件付きで必要) ドライバーのバージョンに一致するNVIDIA Fabric Managerをインストールします。 この操作は、GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合に必要です。.
重要GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合ドライバのバージョンに一致するNVIDIA Fabric Managerをインストールする必要があります。 それ以外の場合は、インスタンスを期待どおりに使用できません。
GPUアクセラレーションインスタンスがebmgn7またはebmgn7eに属していない場合は、この操作をスキップできます。 インスタンスファミリー
NVIDIA Fabric Managerをインストールします。
ソースコードまたはインストールパッケージを使用して、NVIDIA Fabric Managerをインストールできます。 NVIDIA Fabric Managerのインストールに必要なコマンドは、オペレーティングシステムによって異なります。 次の例では、ドライババージョンは460.91.03および535.154.05であり、Ubuntu 16.04、Ubuntu 18.04、Ubuntu 20.04、およびUbuntu 22.04が使用されています。
driver_version
を、手順1: Teslaドライバーのダウンロードでダウンロードしたドライバーのバージョンに置き換えます。重要Ubuntu 22.04にNVIDIA Fabric Managerをインストールする場合、Teslaドライバーのバージョンは515.48.07以降でなければなりません。 Ubuntu 22.04の次のサンプルコマンドでは、ドライバーのバージョンは535.154.05です。
ソースコード
インストールパッケージ
次のコマンドを実行してNVIDIA Fabric Managerを起動します。
sudo systemctlを有効にするnvidia-fabricmanager sudo systemctlスタートnvidia-fabricmanager
次のコマンドを実行して、NVIDIA Fabric Managerがインストールされているかどうかを確認します。
systemctlステータスnvidia-fabricmanager
次のコマンド出力が表示された場合、NVIDIA Fabric Managerがインストールされています。
説明GPUは、NVIDIA Fabric ManagerのバージョンがTeslaドライバーのバージョンと一致している場合にのみ、期待どおりに動作します。 Ubuntuを実行するGPUアクセラレーションのコンピューティング最適化インスタンスの場合、インストールパッケージを使用してNVIDIA Fabric Managerをインストールすると、apt-dailyサービスによってNVIDIA Fabric Managerが自動的に更新されることがあります。 これにより、NVIDIA Fabric ManagerとTeslaドライバーの間でバージョンの不一致が発生します。 その結果、NVIDIA Fabric Managerの起動に失敗し、GPUが期待どおりに動作しなくなります。 この問題を解決する方法については、nvidia-fabricmanagerバージョンがTeslaドライバーバージョンと矛盾しているためにGPUが機能しない場合はどうすればよいですか?
関連ドキュメント
GPU高速化されたコンピューティング最適化Windowsインスタンスを購入した場合、ディープラーニングやAIシナリオなどの一般的なコンピューティングシナリオでインスタンスをより適切に使用するために、Teslaドライバーのみをインストールできます。 詳細については、「GPUアクセラレーションコンピューティング最適化WindowsインスタンスへのTeslaドライバーの手動インストール」をご参照ください。
GPUアクセラレーションインスタンスを作成するときに、Teslaドライバーをインストールできます。 詳細については、「GPUアクセラレーションインスタンスの作成時にTeslaドライバーを自動的にインストールまたはロードする」をご参照ください。
特定の理由でTeslaドライバーが不要になった場合は、ドライバーをアンインストールできます。 詳細については、「NVIDIA Teslaドライバーのアンインストール」をご参照ください。
GPUアクセラレーションインスタンスのドライバーバージョンがビジネス要件を満たせない場合、または無効なドライバータイプまたはバージョンが原因でGPUアクセラレーションインスタンスが使用できなくなった場合は、ドライバーをアンインストールして新しいドライバーをインストールできます。 ドライバをアップグレードすることもできます。 詳細については、「NVIDIA TeslaまたはGRIDドライバーのアップグレード」をご参照ください。