GPUアクセラレーションインスタンスの作成時にTeslaドライバーを自動的にインストールまたはロードする - Elastic GPU Service

汎用コンピューティングおよびグラフィックス高速化のシナリオでは、GPU高速化インスタンスでは、NVIDIA Teslaドライバーをインスタンスにインストールした後に、コンピューティングおよびグラフィックスレンダリング機能を強化できます。 GPUアクセラレーションインスタンスを作成するときに、Teslaドライバーを自動的にインストールまたはロードするようにパラメーターを設定できます。 GPUアクセラレーションインスタンスの作成後にTeslaドライバーを手動でインストールすることもできます。このトピックでは、GPUアクセラレーションインスタンスの作成時にTeslaドライバーを自動的にインストールまたはロードする方法について説明します。

ドライバーのインストール方法

次の表に、Teslaドライバーを自動的にインストールまたはロードするために使用できる方法を示します。汎用コンピューティングおよびグラフィックスアクセラレーションシナリオのパフォーマンス要件に基づいてメソッドを選択できます。

移動方法	説明	関連ドキュメント
パブリックイメージ	GPU高速化インスタンスを作成するときに、パブリックイメージを選択し、[GPUドライバーの自動インストール] を選択します。	パブリックイメージを使用したドライバーの自動インストール
自動インストールスクリプト	GPUアクセラレーションインスタンスを作成するときは、[イメージ] セクションで [GPUドライバーの自動インストール] を選択しないでください。代わりに、[ユーザーデータ] のフィールドに自動インストールスクリプトを入力して、Teslaドライバーをインストールします。	自動インストールスクリプトを使用したドライバのインストール

パブリックイメージを使用したドライバーの自動インストール

特定のLinuxパブリックイメージに対してのみ、[GPUドライバーの自動インストール] を選択できます。パブリックイメージを使用して [GPUドライバーの自動インストール] を選択した場合、GPUアクセラレーションインスタンスを作成すると、システムは自動的にTeslaドライバーをインストールします。

Elastic Compute Service (ECS) コンソールのインスタンス購入ページに移動します。
[カスタム起動] タブをクリックします。

ビジネス要件に基づいてインスタンスのパラメーターを設定します。パラメータには、課金方法、リージョン、ネットワークとゾーン、インスタンスタイプ、およびイメージが含まれます。

このセクションでは、インスタンスタイプとイメージのパラメーターを設定する方法について説明します。その他のパラメーターの詳細については、「パラメーター設定」をご参照ください。次の表に、インスタンスの作成時にTeslaドライバーをインストールできるGPUアクセラレーションインスタンスのインスタンスファミリー、サポートされているイメージバージョン、および対応するドライバーバージョンを示します。

説明

Teslaドライバは、物理GPUを駆動するために使用され、GPU使用率を向上させるためにCUDAおよびcuDNNライブラリとともに使用できます。 CUDAおよびcuDNNライブラリは、Teslaドライバと一緒にインストールされます。システムを最新の状態に保つために、最新バージョンのTeslaドライバー、CUDAライブラリ、およびcuDNNライブラリを使用することを推奨します。

インスタンスファミリー	パブリックイメージのバージョン	Teslaドライバーのバージョン	CUDAライブラリのバージョン	cuDNNライブラリのバージョン
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i gn8isおよびebmgn8is	Alibaba Cloud Linux 2およびAlibaba Cloud Linux 3 Ubuntu 22.04、Ubuntu 20.04、およびUbuntu 18.04 CentOS 8.xおよびCentOS 7.x 説明 ebmgn7e Ubuntu 18.04のイメージをサポートしていません。	550.90.07	12.4.1	9.2.0.82
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i gn8isおよびebmgn8is	Alibaba Cloud Linux 2およびAlibaba Cloud Linux 3 Ubuntu 20.04とUbuntu 18.04 CentOS 8.xおよびCentOS 7.x 説明 ebmgn7e はUbuntu 18.04のイメージをサポートしていません。	535.154.05	12.1.1	8.9.7.29
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Alibaba Cloud Linux 2およびAlibaba Cloud Linux 3 Ubuntu Ubuntu 20.04およびUbuntu 18.04 CentOS 8.xおよびCentOS 7.x	525.105.17	12.0.1	8.9.1.23
gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Alibaba Cloud Linux 2およびAlibaba Cloud Linux 3 Ubuntu 20.04、Ubuntu 18.04、およびUbuntu 16.04 CentOS 8.xおよびCentOS 7.x Debian 10.10	470.161.03	11.4.1	8.2.4
gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Alibaba Cloud Linux 2 Ubuntu 20.04、Ubuntu 18.04、およびUbuntu 16.04 CentOS 8.xおよびCentOS 7.x	460.91.03	11.2.2	8.1.1
gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Alibaba Cloud Linux 2 Ubuntu 20.04、Ubuntu 18.04、およびUbuntu 16.04 CentOS 8.xおよびCentOS 7.x	460.91.03	11.0.2	8.1.1 8.0.4
gn6v、gn6i、gn6e、gn5、gn5i ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Alibaba Cloud Linux 2 Ubuntu 18.04とUbuntu 16.04 CentOS 8.xおよびCentOS 7.x	460.91.03	10.2.89	8.1.1 8.0.4 7.6.5
gn6v、gn6i、gn6e、gn5、gn5i ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Ubuntu 18.04とUbuntu 16.04 CentOS 7.x	450.80.02 440.64.00	10.1.168	8.0.4 7.6.5 7.5.0
gn6v、gn6i、gn6e、gn5、gn5i ebmgn6v、ebmgn6i、ebmgn6e、およびebmgn5i	Ubuntu 18.04とUbuntu 16.04 CentOS 7.x	450.80.02 440.64.00	10.0.130	7.6.5 7.5.0 7.4.2 7.3.1

重要

インスタンスの作成後にインスタンスのOSを変更するには、Teslaドライバーの自動インストールをサポートするパブリックイメージを使用する必要があります。 Teslaドライバーの自動インストールをサポートしていないパブリックイメージを使用する場合は、OSを変更する前に、インスタンスのTeslaドライバーの自動インストールを無効にする必要があります。詳細については、「」をご参照ください。GPUアクセラレーションインスタンスのオペレーティングシステムを交換するときに、Teslaドライバーの自動インストール機能を無効にするにはどうすればよいですか?
pip3 install torchを使用してPyTorch 2.1.2をインストールした場合は、CUDA 12.1をインストールする必要があります。それ以外の場合、PyTorchを使用するとエラーがスローされます。詳細については、「」をご参照ください。PyTorchを使用するときに「undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12」というエラーメッセージが表示された場合はどうすればよいですか?

この例では、gn7iインスタンスが使用されます。 [イメージ] セクションの [パブリックイメージ] タブで、Alibaba Cloud Linux 3.2104 LTS 64ビットなどのLinuxディストリビューションとバージョンを選択します。次に、[GPUドライバーの自動インストール] を選択し、CUDAライブラリバージョン、ドライバーバージョン、およびcuDNNライブラリバージョンを選択します。このようにして、GPUアクセラレーションインスタンスを作成すると、システムは自動的にTeslaドライバーをインストールします。

インスタンスの作成または起動後、Teslaドライバーに関する次の情報に注意してください。

システムは、テスラドライバを自動的にインストールするのに約10〜20分かかります。期間は、プライベート帯域幅とインスタンスタイプでサポートされているvCPUの数によって異なります。インストールプロセスを表示するには、インスタンスに接続します。インストール完了後、/root/auto_install/auto_install.logのインストールログを確認することもできます。次の表に、インストールプロセス中に表示される情報を示します。

インストール状態	表示される情報
インストール	インストールの進行状況バーが表示されます。
インストール済み	インストール結果ALL INSTALL OKが表示されます。
インストールに失敗しました	インストール結果INSTALL FAILが表示されます。

重要

インストールプロセス中にインスタンスに対して操作を実行しないでください。これは、インストールプロセス中にGPUが使用できなくなるためです。特定のGPU関連ソフトウェアが自動的にインストールされない場合、インスタンスが使用できなくなることがあります。

画面の指示に従って支払いを完了します。

自動インストールスクリプトを使用したドライバのインストール

GPUアクセラレーションインスタンスの作成時に [イメージ] セクションで [GPUドライバーの自動インストール] を選択しない場合、[ユーザーデータ] のフィールドに自動インストールスクリプトを入力してTeslaドライバーをインストールできます。

自動インストールスクリプトのパラメーター

自動インストールスクリプトを使用する場合は、ビジネス要件に基づいて次のパラメーターを変更する必要があります。

、使用するインスタンスファミリーとイメージに基づいて、Teslaドライバー、CUDAライブラリ、およびcuDNNライブラリのバージョンを変更します。サポートされているバージョンの詳細については、テーブル"で提供されるパブリックイメージを使用してドライバを自動的にインストールするセクションにアクセスします。

この例では、Teslaドライバーのバージョンが470.161.03に、CUDAライブラリのバージョンが11.4.1に、cuDNNライブラリのバージョンが8.2.4に変更されています。サンプルコード:

DRIVER_VERSION="470.161.03"
CUDA_VERSION="11.4.1"
CUDNN_VERSION="8.2.4"

手順

ECSコンソールのインスタンス購入ページに移動します。
[カスタム起動] タブをクリックします。
ビジネス要件に基づいてインスタンスのパラメーターを設定します。パラメータには、課金方法、リージョン、ネットワークとゾーン、インスタンスタイプ、イメージ、ユーザーデータが含まれます。
パラメーターの詳細については、「パラメーター設定」をご参照ください。

フィールドでは、ユーザーデータの一部詳細設定 (オプション)セクションで、準備した自動インストールスクリプトを入力します。

自動インストールスクリプトを用意できます。詳細については、自動インストールスクリプトのパラメーターをご参照ください。

この例では、スクリプトは. 実行Teslaドライバーなどのモジュールをインストールするためのインストールパッケージ。サンプルスクリプト:

#!/bin/sh

#Please input version to install
DRIVER_VERSION="550.90.07"
CUDA_VERSION="12.4.1"
CUDNN_VERSION="9.2.0.82"
IS_INSTALL_eRDMA="FALSE"
IS_INSTALL_RDMA="FALSE"
INSTALL_DIR="/root/auto_install"

#using .run to install driver and cuda
auto_install_script="auto_install_v4.0.sh"

script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
echo $script_download_url

rm -rf $INSTALL_DIR
mkdir -p $INSTALL_DIR
cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA

画面の指示に従って支払いを完了します。
説明
- RunInstancesを呼び出してGPU高速化インスタンスを作成する場合、UserDataパラメーターを使用して自動インストールスクリプトをアップロードするだけでTeslaドライバーをインストールできます。詳細は、「RunInstances」をご参照ください。
- GPU高速化インスタンスの作成時にシステムがTeslaドライバーを自動的にインストールしない場合は、インスタンスの作成後に自動インストールスクリプトを実行して、Teslaドライバーなどのソフトウェアをインストールできます。ソフトウェアをインストールするには、SSHを使用してインスタンスにログインし、インスタンスにファイルを作成し、自動インストールスクリプトをインスタンスにコピーしてから、スクリプトをシェルスクリプトとして実行する必要があります。インスタンスへの接続方法の詳細については、「インスタンスへの接続」をご参照ください。

ドライバーのインストール方法

パブリックイメージを使用したドライバーの自動インストール

自動インストールスクリプトを使用したドライバのインストール

自動インストールスクリプトのパラメーター

手順

関連ドキュメント