すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:GPU高速化コンピューティング最適化LinuxインスタンスにTeslaドライバーを手動でインストールする

最終更新日:Dec 13, 2024

NVIDIA TeslaドライバーがインストールされているGPU高速化インスタンスは、特定のシナリオで高性能なコンピューティング機能を提供したり、よりスムーズなグラフィック表示効果を提供したりできます。 シナリオには、ディープラーニングやAIシナリオなどの汎用コンピューティングシナリオと、Open graphics Library (OpenGL) 、Direct3D、クラウドゲームシナリオなどのグラフィックスアクセラレーションシナリオが含まれます。 GPUアクセラレーションコンピューティング最適化Linuxインスタンスの作成時にTeslaドライバーをインストールしない場合は、インスタンスの作成後にTeslaドライバーを手動でインストールする必要があります。 このトピックでは、GPUアクセラレーションコンピューティング最適化LinuxインスタンスにTeslaドライバーを手動でインストールする方法について説明します。

説明

GPUアクセラレーションコンピューティング最適化インスタンスがAlibaba Cloud Linux 3を実行し、インスタンスの作成時にTeslaドライバーが自動的にインストールされない場合、YUMを使用してドライバーをインストールできます。 詳細については、「YUMを使用したNVIDIA TeslaドライバーのGPUアクセラレーションコンピューティング最適化Alibaba Cloud Linux 3インスタンスへの迅速なインストール」をご参照ください。

手順

この手順は、すべてのGPU高速化コンピューティング最適化Linuxインスタンスに適用されます。 詳細については、「GPU高速化コンピューティング最適化インスタンスファミリー (gn、ebm、sccシリーズ) 」をご参照ください。 インストールできるのは、インスタンスと同じOSを実行するTeslaドライバのみです。 たとえば、GPUアクセラレーションコンピューティング最適化Linuxインスタンスには、Linux Teslaドライバーのみをインストールできます。

ステップ1: Teslaドライバーをダウンロードする

  1. をご覧ください。

    NVIDIAドライバのダウンロードページ

    説明

    NVIDIAドライバーをインストールおよび構成する方法の詳細については、「NVIDIA CUDAインストールガイドFor Linux」をご参照ください。

  2. 検索条件を設定し、検索インスタンスに適したドライバーを検索します。

    Tesla驱动.jpg

    検索条件を次の表に示します。

    条件

    説明

    • プロダクトタイプ

    • 制品シリーズ

    • 制品ファミリー

    GPUアクセラレーションインスタンスのGPUに基づいて、製品タイプ、製品シリーズ、および製品ファミリを選択します。

    説明

    インスタンスID、インスタンスタイプ、OSなど、GPU高速化インスタンスの詳細を表示する方法の詳細については、「インスタンス情報の表示」をご参照ください。

    • データセンター /テスラ

    • Aシリーズ

    • NVIDIA A10

    OS

    インスタンスのイメージに基づいてLinuxバージョンを選択します。

    Linux 64ビット

    CUDA Toolkitのバージョン

    CUDA Toolkitのバージョンを選択します。

    11.4

    言語

    ドライバーの言語を選択します。

    中国語 (簡体字)

    特定のGPU高速化コンピューティング最適化インスタンスファミリーのGPU、サポートされているドライバーバージョン、およびCUDA Toolkitバージョン

    インスタンスファミリー

    gn8is

    gn7e

    gn7i

    gn7

    gn6e

    gn6i

    gn6v

    gn5i

    gn5

    製品タイプ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    制品シリーズ

    Lシリーズ

    Aシリーズ

    Aシリーズ

    Aシリーズ

    V-Series

    Tシリーズ

    V-Series

    P-Series

    P-Series

    Teslaドライバーの推奨バージョン

    バージョン550.90.07 or later

    バージョン450.80.02以降

    バージョン460.73.01以降

    バージョン450.80.02以降

    410.79以降のバージョン

    推奨されるCUDA Toolkitバージョン

    CUDA Toolkit 12.4アップデート1

    CUDA Toolkit 11.0アップデート1

    CUDAツールキット11.2

    CUDA Toolkit 11.0アップデート1

    CUDA Toolkit 10.1アップデート2

    説明
    • 上記の表では、特定の一般的なGPUアクセラレーションコンピューティング最適化インスタンスファミリーに関するGPU情報のみを説明しています。 同じGPUを使用するインスタンスは、同じ製品タイプ、製品シリーズ、製品ファミリなど、同じGPU情報を持ちます。 たとえば、ebmgn7iおよびgn7iインスタンスファミリーのインスタンスはNVIDIA A10 GPUを使用します。 したがって、インスタンスの製品タイプ、製品シリーズ、および製品ファミリは同じです。

    • TeslaドライバーとCUDA Toolkitを手動でインストールする場合は、ドライバーバージョンがCUDA Toolkitバージョンと互換性があることを確認する必要があります。 詳細については、「CUDA互換性」をご参照ください。

  3. 結果ページで、[その他のバージョンを表示] をクリックします。

  4. ダウンロードするドライバーを見つけて、ドライバー名の横にある [表示] をクリックします。

    この例では、ドライバーバージョンが470.161.03でCUDA Toolkitバージョンが11.4のData Center Driver for Linux x64ドライバーが選択されています。

  5. ダウンロードするドライバーの詳細ページで、[ダウンロード] を右クリックし、[URLのコピー] を選択します。

    驱动下载.jpg

  6. GPU高速化コンピューティング最適化Linuxインスタンスに接続します。

    詳細については、「Workbenchを使用したSSH経由のLinuxインスタンスへの接続」をご参照ください。

  7. 次のコマンドを実行して、ドライバインストールパッケージをダウンロードします。

    サンプルコードのURLを、サブステップ5で取得したURLに置き換えます。

    wget https://us.download.nvidia.com/tesla/470.161.03/NVIDIA-Linux-x86_64-470.161.03.run

ステップ2: Teslaドライバをインストールする

Teslaドライバーをインスタンスにインストールする方法は、インスタンスのOSによって異なります。 次のセクションでは、異なるOSにTeslaドライバーをインストールする方法について説明します。

CentOS

  1. 次のコマンドを実行して、kernel-develパッケージとkernel-headersパッケージがGPUアクセラレーションインスタンスにインストールされているかどうかを確認します。

    sudo rpm  -qa | grep $(uname -r)
    • コマンド出力にkernel-develパッケージとkernel-headersパッケージのバージョン情報が含まれている場合は、パッケージがインストールされます。 サンプルコマンド出力:

      kernel-3.10.0-1062.18.1.el7.x86_64
      kernel-devel-3.10.0-1062.18.1.el7.x86_64
      kernel-headers-3.10.0-1062.18.1.el7.x86_64
    • コマンド出力にkernel-devel (kernel-devel-*) およびkernel-headers (kernel-headers-*) パッケージのバージョン情報が含まれていない場合は、必要なバージョンのパッケージをダウンロードしてインストールする必要があります。 詳細については、「kernel-devel」および「kernel-headers」をご参照ください。

      重要

      kernel-develのバージョンがカーネルのバージョンと異なる場合、ドライバーにRPMパッケージマネージャー (RPM) をインストールするとコンパイルエラーが発生します。 したがって、kernel-develバージョンをダウンロードする前に、コマンド出力のkernelバージョンを確認してください。 上記のコマンド出力では、カーネルのバージョンは3.10.0-1062.18.1.el7.x86_64です。

  2. インストールパッケージの権限をTeslaドライバーに付与し、ドライバーをインストールします。

    この例では、Linuxの64ビットTeslaドライバが使用されています。 を使用することを推奨します。Teslaドライバのインストールパッケージ (NVIDIA-Linux-x86_64-xxxx.runパッケージなど) を実行します。 次のコマンドを実行して、インストールパッケージに実行権限を付与し、Teslaドライバーをインストールします。

    説明

    Teslaドライバのインストールパッケージが、次のような別の形式である場合。debまたは。rpm形式は、インストール方法についてはNVIDIA CUDA Installation Guide for Linuxを参照してください。

    sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run
    sudo sh NVIDIA-Linux-x86_64-xxxx.run
  3. 次のコマンドを実行して、Teslaドライバがインストールされているかどうかを確認します。

    nvidia-smi

    次のコマンド出力が表示されると、Teslaドライバがインストールされます。

    驱动版本.jpg

  4. (オプション) NVIDIA永続デーモンを使用して永続モードを有効にします。

    Teslaドライバをインストールすると、デフォルトで永続モードは無効 (オフ) 状態になります。 Teslaドライバは、永続モードを有効にすると、より安定したパフォーマンスを実現できます。 ビジネスの継続性を確保するために、NVIDIA Persistence Daemonを使用してPersistence Modeを有効にすることを推奨します。 詳細については、NVIDIAの公式WebサイトのPersistence Daemonをご参照ください。

    説明
    1. 次のコマンドを実行して、NVIDIA Persistence Daemonを実行します。

      sudo nvidia-persistenced --user username 
      # Replace username with your username.
    2. 次のコマンドを実行して、永続モードのステータスを表示します。

      nvidia-smi

      次のコマンド出力が表示されている場合、永続モードは有効 (オン) 状態です。

      persistence.jpg

  5. (オプション) システムを再起動した後、永続モードを有効にします。

    システムを再起動すると、永続モードの有効 (オン) 状態が無効になります。 永続モードを有効にするには、次の操作を実行します。

    Teslaドライバーインストールパッケージをインストールして、NVIDIAが提供するサンプルスクリプトやインストーラスクリプトなどのインストールスクリプトを /usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2のパスにインストールします。

    1. 次のコマンドを実行して、NVIDIAが提供するインストールスクリプトを解凍してインストールします。

      cd  /usr/share/doc/NVIDIA_GLX-1.0/samples/
      sudo tar xf nvidia-persistenced-init.tar.bz2
      cd  nvidia-persistenced-init
      sudo sh install.sh
    2. 次のコマンドを実行して、NVIDIA Persistence Daemonが期待どおりに実行されるかどうかを確認します。

      sudo systemctl status nvidia-persistenced

      次のコマンド出力が表示された場合、NVIDIA Persistenceデーモンは期待どおりに実行されます。

      persistence Daemon.jpg

      説明

      NVIDIA Persistence DaemonインストールスクリプトをOSに基づいて調整し、NVIDIA Persistence Daemonが期待どおりに機能するようにすることができます。

    3. 次のコマンドを実行して、永続モードが有効 (オン) 状態であることを確認します。

      nvidia-smi
    4. (オプション) 次のコマンドを実行して、NVIDIA Persistence Daemonを無効にします。

      ビジネス要件に基づいて、NVIDIA Persistence Daemonを無効にできます。

      sudo systemctl stop nvidia-persistenced
      sudo systemctl disable nvidia-persistenced
  6. (条件付きで必要) ドライバーのバージョンに一致するnvidia-fabricmanagerをインストールします。 この操作は、GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合に必要です。

    .

    重要
    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合

      、ドライバのバージョンに一致するnvidia-fabricmanagerをインストールする必要があります。 それ以外の場合は、インスタンスを期待どおりに使用できません。

    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eに属していない場合は、この操作をスキップできます。

      インスタンスファミリー

    1. nvidia-fabricmanagerをインストールします。

      nvidia-fabricmanagerは、ソースコードまたはインストールパッケージを使用してインストールできます。 nvidia-fabricmanagerをインストールするために必要なコマンドは、OSによって異なります。 次の例では、ドライバーのバージョンは460.91.03で、CentOS 7.xとCentOS 8.xが使用されています。 driver_versionを、手順1: Teslaドライバーのダウンロードでダウンロードしたドライバーのバージョンに置き換えます。

      • ソースコード

        • CentOS 7.x

          driver_version=460.91.03
          sudo yum -y install yum-utils
          sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
          sudo yum install -y nvidia-fabric-manager-${driver_version}-1
        • CentOS 8.x

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
          distribution=rhel8
          ARCH=$( /bin/arch )
          sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/$distribution/${ARCH}/cuda-$distribution.repo
          sudo dnf module enable -y nvidia-driver:${driver_version_main}
          sudo dnf install -y nvidia-fabric-manager-0:${driver_version}-1
      • インストールパッケージ

        • CentOS 7.x

          driver_version=460.91.03
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
          sudo rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
        • CentOS 8.x

          driver_version=460.91.03
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
          sudo rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
    2. 次のコマンドを実行してnvidia-fabricmanagerを起動します。

      sudo systemctl enable nvidia-fabricmanager
      sudo systemctl start nvidia-fabricmanager
    3. 次のコマンドを実行して、nvidia-fabricmanagerがインストールされているかどうかを確認します。

      systemctl status nvidia-fabricmanager

      次のコマンド出力が表示される場合は、nvidia-fabricmanagerがインストールされます。

      Dingtalk_20240910143221.jpg

Ubuntuなどの他のLinuxディストリビューション

  1. インストールパッケージの権限をTeslaドライバーに付与し、ドライバーをインストールします。

    この例では、Linuxの64ビットTeslaドライバが使用されています。 を使用することを推奨します。Teslaドライバのインストールパッケージ (NVIDIA-Linux-x86_64-xxxx.runパッケージなど) を実行します。 次のコマンドを実行して、インストールパッケージに実行権限を付与し、Teslaドライバーをインストールします。

    説明

    Teslaドライバのインストールパッケージが、次のような別の形式である場合。debまたは。rpm形式は、インストール方法についてはNVIDIA CUDA Installation Guide for Linuxを参照してください。

    sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run
    sudo sh NVIDIA-Linux-x86_64-xxxx.run
  2. 次のコマンドを実行して、Teslaドライバがインストールされているかどうかを確認します。

    nvidia-smi

    次のコマンド出力が表示されると、Teslaドライバがインストールされます。

    驱动版本.jpg

  3. (オプション) NVIDIA永続デーモンを使用して永続モードを有効にします。

    Teslaドライバをインストールすると、デフォルトで永続モードは無効 (オフ) 状態になります。 Teslaドライバは、永続モードを有効にすると、より安定したパフォーマンスを実現できます。 ビジネスの継続性を確保するために、NVIDIA Persistence Daemonを使用してPersistence Modeを有効にすることを推奨します。 詳細については、NVIDIAの公式WebサイトのPersistence Daemonをご参照ください。

    説明
    1. 次のコマンドを実行して、NVIDIA Persistence Daemonを実行します。

      sudo nvidia-persistenced --user username 
      # Replace username with your username.
    2. 次のコマンドを実行して、永続モードのステータスを表示します。

      nvidia-smi

      次のコマンド出力が表示されている場合、永続モードは有効 (オン) 状態です。

      persistence.jpg

  4. (オプション) システムを再起動した後、永続モードを有効にします。

    システムを再起動すると、永続モードの有効 (オン) 状態が無効になります。 永続モードを有効にするには、次の操作を実行します。

    Teslaドライバーインストールパッケージをインストールして、NVIDIAが提供するサンプルスクリプトやインストーラスクリプトなどのインストールスクリプトを /usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2のパスにインストールします。

    1. 次のコマンドを実行して、NVIDIAが提供するインストールスクリプトを解凍してインストールします。

      cd  /usr/share/doc/NVIDIA_GLX-1.0/samples/
      sudo tar xf nvidia-persistenced-init.tar.bz2
      cd  nvidia-persistenced-init
      sudo sh install.sh
    2. 次のコマンドを実行して、NVIDIA Persistence Daemonが期待どおりに実行されるかどうかを確認します。

      sudo systemctl status nvidia-persistenced

      次のコマンド出力が表示された場合、NVIDIA Persistenceデーモンは期待どおりに実行されます。

      persistence Daemon.jpg

      説明

      NVIDIA Persistence DaemonインストールスクリプトをOSに基づいて調整し、NVIDIA Persistence Daemonが期待どおりに機能するようにすることができます。

    3. 次のコマンドを実行して、永続モードが有効 (オン) 状態であることを確認します。

      nvidia-smi
    4. (オプション) 次のコマンドを実行して、NVIDIA Persistence Daemonを無効にします。

      ビジネス要件に基づいて、NVIDIA Persistence Daemonを無効にできます。

      sudo systemctl stop nvidia-persistenced
      sudo systemctl disable nvidia-persistenced
  5. (条件付きで必要) ドライバーのバージョンに一致するnvidia-fabricmanagerをインストールします。 この操作は、GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合に必要です。

    .

    重要
    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合

      、ドライバのバージョンに一致するnvidia-fabricmanagerをインストールする必要があります。 それ以外の場合は、インスタンスを期待どおりに使用できません。

    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eに属していない場合は、この操作をスキップできます。

      インスタンスファミリー

    1. nvidia-fabricmanagerをインストールします。

      nvidia-fabricmanagerは、ソースコードまたはインストールパッケージを使用してインストールできます。 nvidia-fabricmanagerをインストールするために必要なコマンドは、OSによって異なります。 次の例では、ドライババージョンは460.91.03および535.154.05であり、Ubuntu 16.04、Ubuntu 18.04、Ubuntu 20.04、およびUbuntu 22.04が使用されています。 driver_versionを、手順1: Teslaドライバーのダウンロードでダウンロードしたドライバーのバージョンに置き換えます。

      重要

      Ubuntu 22.04にnvidia-fabricmanagerをインストールする場合、Teslaドライバーのバージョンは515.48.07以降でなければなりません。 Ubuntu 22.04の次のサンプルコマンドでは、ドライバーのバージョンは535.154.05です。

      • ソースコード

        Ubuntu 16.04、Ubuntu 18.04、またはUbuntu 20.04

        driver_version=460.91.03
        driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
        distribution=$(. /etc/os-release;echo $ID$VERSION_ID | sed -e 's/\.//g')
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-$distribution.pin
        sudo mv cuda-$distribution.pin /etc/apt/preferences.d/cuda-repository-pin-600
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/3bf863cc.pub
        sudo apt-key add 3bf863cc.pub
        sudo rm 3bf863cc.pub
        sudo echo "deb https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64 /" | tee /etc/apt/sources.list.d/cuda.list
        sudo apt-get update
        sudo apt-get -y install nvidia-fabricmanager-${driver_version_main}=${driver_version}-*

        Ubuntu 22.04

        driver_version=535.154.05
        driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
        distribution=$(. /etc/os-release;echo $ID$VERSION_ID | sed -e 's/\.//g')
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-$distribution.pin
        sudo mv cuda-$distribution.pin /etc/apt/preferences.d/cuda-repository-pin-600
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/3bf863cc.pub
        sudo apt-key add 3bf863cc.pub
        sudo rm 3bf863cc.pub
        sudo echo "deb https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64 /" | tee /etc/apt/sources.list.d/cuda.list
        sudo apt-get update
        sudo apt-get -y install nvidia-fabricmanager-${driver_version_main}=${driver_version}-*
      • インストールパッケージ

        • Ubuntu 16.04

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
        • Ubuntu 18.04

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
        • Ubuntu 20.04

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
        • Ubuntu 22.04

          driver_version=535.154.05 
          driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
    2. 次のコマンドを実行してnvidia-fabricmanagerを起動します。

      sudo systemctl enable nvidia-fabricmanager
      sudo systemctl start nvidia-fabricmanager
    3. 次のコマンドを実行して、nvidia-fabricmanagerがインストールされているかどうかを確認します。

      systemctl status nvidia-fabricmanager

      次のコマンド出力が表示される場合は、nvidia-fabricmanagerがインストールされます。

      image.png

      説明

      nvidia-fabricmanagerのバージョンがTeslaドライバーのバージョンと一致している場合にのみ、GPUは期待どおりに動作します。 Ubuntuを実行するGPU高速化されたコンピューティング最適化インスタンスの場合、インストールパッケージを使用してnvidia-fabricmanagerをインストールした場合、apt-dailyサービスはnvidia-fabricmanagerを自動的に更新する場合があります。 これにより、nvidia-fabricmanagerとTeslaドライバーの間にバージョンの不一致が発生します。 その結果、nvidia-fabricmanagerの起動に失敗し、GPUは期待どおりに機能しません。 この問題を解決する方法の詳細については、nvidia-fabricmanagerバージョンがTeslaドライバーバージョンと矛盾しているためにGPUが機能しない場合はどうすればよいですか?

関連ドキュメント