すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:GPU高速化コンピューティング最適化LinuxインスタンスにTeslaドライバーを手動でインストールする

最終更新日:Oct 21, 2024

NVIDIA TeslaドライバーがインストールされているGPU高速化インスタンスは、特定のシナリオで高性能なコンピューティング機能を提供したり、よりスムーズなグラフィック表示効果を提供したりできます。 シナリオには、ディープラーニングやAIシナリオなどの一般的なコンピューティングシナリオと、Open graphics Library (OpenGL) 、Direct3D、クラウドゲームシナリオなどのグラフィックスアクセラレーションシナリオが含まれます。 GPUアクセラレーションコンピューティング最適化Linuxインスタンスの作成時にTeslaドライバーをインストールしない場合は、インスタンスの作成後にTeslaドライバーを手動でインストールする必要があります。 このトピックでは、GPUアクセラレーションコンピューティング最適化LinuxインスタンスにTeslaドライバーを手動でインストールする方法について説明します。

説明

GPUアクセラレーションコンピューティング最適化インスタンスがAlibaba Cloud Linux 3オペレーティングシステムを実行し、インスタンスの作成時にTeslaドライバーが自動的にインストールされない場合、YUMを使用してドライバーをインストールできます。 詳細については、「YUMを使用したNVIDIA TeslaドライバーのGPUアクセラレーションコンピューティング最適化Alibaba Cloud Linux 3インスタンスへの迅速なインストール」をご参照ください。

手順

説明

この手順は、すべてのGPU高速化コンピューティング最適化Linuxインスタンスに適用されます。 詳細については、「GPU-accelerated compute-optimizedインスタンスファミリー」をご参照ください。 インストールできるのは、インスタンスと同じオペレーティングシステムを実行するTeslaドライバのみです。 たとえば、GPUアクセラレーションコンピューティング最適化Linuxインスタンスには、Linux Teslaドライバーのみをインストールできます。

ステップ1: Teslaドライバーをダウンロードする

  1. をご覧ください。 NVIDIAドライバのダウンロードページ

    説明

    NVIDIAドライバーをインストールおよび構成する方法の詳細については、「NVIDIA CUDAインストールガイドFor Linux」をご参照ください。

  2. 検索条件を設定し、検索インスタンスに適したドライバーを検索します。

    Tesla驱动.jpg

    検索条件を次の表に示します。

    条件

    説明

    • プロダクトカテゴリ

    • 制品シリーズ

    • プロダクト

    GPUアクセラレーションインスタンスのGPUに基づいて、製品カテゴリ、製品シリーズ、および製品を選択します。

    説明

    インスタンスID、インスタンスタイプ、オペレーティングシステムなど、GPU高速化インスタンスの詳細を表示する方法については、「インスタンス情報の表示」をご参照ください。

    • データセンター /テスラ

    • Aシリーズ

    • NVIDIA A10

    オペレーティングシステム

    インスタンスのイメージに基づいてLinuxバージョンを選択します。

    Linux 64ビット

    CUDA Toolkitのバージョン

    CUDA Toolkitのバージョンを選択します。

    11.4

    言語

    ドライバーの言語を選択します。

    中国語 (簡体字)

    GPU高速化インスタンスとサポートされているドライバーバージョンとCUDA ToolkitバージョンのGPU

    項目

    gn5

    gn5i

    gn6v

    gn6i

    gn6e

    gn7

    gn7i

    gn7e

    商品カテゴリ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    データセンター /テスラ

    制品シリーズ

    P-Series

    P-Series

    V-Series

    Tシリーズ

    V-Series

    Aシリーズ

    Aシリーズ

    Aシリーズ

    Teslaドライバーの推奨バージョン

    410.79以降のバージョン

    バージョン450.80.02以降

    バージョン460.73.01以降

    バージョン450.80.02以降

    推奨されるCUDA Toolkitバージョン

    CUDA Toolkit 10.1アップデート2

    CUDA Toolkit 11.0アップデート1

    CUDAツールキット11.2

    CUDA Toolkit 11.0アップデート1

    説明
    • 上記の表では、特定の一般的なGPUアクセラレーションコンピューティング最適化インスタンスファミリーに関するGPU情報のみを説明しています。 同じGPUを使用するインスタンスは、同じ製品タイプ、製品シリーズ、製品ファミリなど、同じGPU情報を持ちます。 たとえば、ebmgn7iおよびgn7iインスタンスファミリーのインスタンスはNVIDIA A10 GPUを使用します。 したがって、インスタンスの製品タイプ、製品シリーズ、および製品ファミリは同じです。

    • TeslaドライバーとCUDA Toolkitを手動でインストールする場合は、ドライバーバージョンがCUDA Toolkitバージョンと互換性があることを確認する必要があります。 詳細については、「CUDA互換性」をご参照ください。

  3. 結果ページで、[その他のバージョンを表示] をクリックします。

  4. ダウンロードするドライバーを見つけて、ドライバー名の横にある [表示] をクリックします。

    この例では、ドライバーバージョンが470.161.03でCUDA Toolkitバージョンが11.4のData Center Driver for Linux x64ドライバーが選択されています。

  5. ダウンロードするドライバーの詳細ページで、[ダウンロード] を右クリックし、[URLのコピー] を選択します。

    驱动下载.jpg

  6. GPU高速化コンピューティング最適化Linuxインスタンスに接続します。

    詳細については、「パスワードまたはキーを使用したLinuxインスタンスへの接続」をご参照ください。

  7. 次のコマンドを実行して、ドライバインストールパッケージをダウンロードします。

    サンプルコードのURLを、サブステップ5で取得したURLに置き換えます。

    wget https://us.download.nvidia.com/tesla/470.161.03/NVIDIA-Linux-x86_64-470.161.03.run

ステップ2: Teslaドライバをインストールする

Teslaドライバーをインスタンスにインストールする方法は、インスタンスのOSによって異なります。 次のセクションでは、異なるOSにTeslaドライバーをインストールする方法について説明します。

CentOS

  1. 次のコマンドを実行して、kernel-develパッケージとkernel-headersパッケージがGPUアクセラレーションインスタンスにインストールされているかどうかを確認します。

    sudo rpm  -qa | grep $(uname -r)
    • コマンド出力にkernel-develパッケージとkernel-headersパッケージのバージョン情報が含まれている場合は、パッケージがインストールされます。 サンプルコマンド出力:

      kernel-3.10.0-1062.18.1.el7.x86_64
      kernel-devel-3.10.0-1062.18.1.el7.x86_64
      kernel-headers-3.10.0-1062.18.1.el7.x86_64
    • コマンド出力にkernel-devel (kernel-devel-*) およびkernel-headers (kernel-headers-*) パッケージのバージョン情報が含まれていない場合は、必要なバージョンのパッケージをダウンロードしてインストールする必要があります。 詳細については、「kernel-devel」および「kernel-headers」をご参照ください。

      重要

      kernel-develのバージョンがカーネルのバージョンと異なる場合、ドライバーにRPMパッケージマネージャー (RPM) をインストールするとコンパイルエラーが発生します。 したがって、kernel-develバージョンをダウンロードする前に、コマンド出力のkernelバージョンを確認してください。 上記のコマンド出力では、カーネルのバージョンは3.10.0-1062.18.1.el7.x86_64です。

  2. インストールパッケージの権限をTeslaドライバーに付与し、ドライバーをインストールします。

    この例では、Linuxの64ビットTeslaドライバが使用されています。 を使用することを推奨します。Teslaドライバのインストールパッケージ (NVIDIA-Linux-x86_64-xxxx.runパッケージなど) を実行します。 次のコマンドを実行して、インストールパッケージに実行権限を付与し、Teslaドライバーをインストールします。

    説明

    Teslaドライバのインストールパッケージが、次のような別の形式である場合。debまたは。rpm形式は、インストール方法についてはNVIDIA CUDA Installation Guide for Linuxを参照してください。

    sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run

    sudo sh NVIDIA-Linux-x86_64-xxxx.run
  3. 次のコマンドを実行して、Teslaドライバがインストールされているかどうかを確認します。

    nvidia-smi

    次のコマンド出力が表示されると、Teslaドライバがインストールされます。

    驱动版本.jpg

  4. (オプション) NVIDIA persistence Daemonを使用して、永続化モード (Persistence-M) を有効にします。

    Teslaドライバがインストールされた後、Persistence-Mはデフォルトで無効 (オフ) 状態になります。 Teslaドライバーは、Persistence-Mを有効にすると、より安定したパフォーマンスを実現できます。 ビジネスの継続性を確保するために、NVIDIA Persistence Daemonを使用してPersistence-Mを有効にすることを推奨します。 詳細については、「NVIDIAの公式WebサイトのPersistence Daemon」をご参照ください。

    説明
    1. 次のコマンドを実行して、NVIDIA Persistence Daemonを実行します。

      sudo nvidia-persistenced --user username 
      # Replace username with your username.
    2. 次のコマンドを実行して、Persistence-Mのステータスを表示します。

      nvidia-smi

      次のコマンド出力が表示されている場合、Persistence-Mは有効 (オン) 状態です。

      persistence.jpg

  5. (オプション) システムを再起動した後、Persistence-Mを有効にします。

    システムを再起動すると、Persistence-Mの有効 (オン) 状態が無効になります。 Persistence-Mを有効にするには、次の操作を実行します。

    Teslaドライバーインストールパッケージをインストールして、NVIDIAが提供するサンプルスクリプトやインストーラスクリプトなどのインストールスクリプトを /usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2のパスにインストールします。

    1. 次のコマンドを実行して、NVIDIAが提供するインストールスクリプトを解凍してインストールします。

      cd  /usr/share/doc/NVIDIA_GLX-1.0/samples/
      sudo tar xf nvidia-persistenced-init.tar.bz2
      cd  nvidia-persistenced-init
      sudo sh install.sh
    2. 次のコマンドを実行して、NVIDIA Persistence Daemonが期待どおりに実行されるかどうかを確認します。

      sudo systemctl status nvidia-persistenced

      次のコマンド出力が表示された場合、NVIDIA Persistenceデーモンは期待どおりに実行されます。

      persistence Daemon.jpg

      説明

      NVIDIA Persistence Daemonインストールスクリプトをオペレーティングシステムに基づいて調整し、NVIDIA Persistence Daemonが期待どおりに機能するようにすることができます。

    3. 次のコマンドを実行して、Persistence-Mが有効 (オン) 状態であることを確認します。

      nvidia-smi
    4. (オプション) 次のコマンドを実行して、NVIDIA Persistence Daemonを無効にします。

      ビジネス要件に基づいて、NVIDIA Persistence Daemonを無効にできます。

      sudo systemctl stop nvidia-persistenced
      sudo systemctl disable nvidia-persistenced
  6. (条件付きで必要) ドライバーのバージョンに一致するNVIDIA Fabric Managerをインストールします。 この操作は、GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合に必要です。.

    重要
    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合ドライバのバージョンに一致するNVIDIA Fabric Managerをインストールする必要があります。 それ以外の場合は、インスタンスを期待どおりに使用できません。

    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eに属していない場合は、この操作をスキップできます。 インスタンスファミリー

    1. NVIDIA Fabric Managerをインストールします。

      ソースコードまたはインストールパッケージを使用して、NVIDIA Fabric Managerをインストールできます。 NVIDIA Fabric Managerのインストールに必要なコマンドは、オペレーティングシステムによって異なります。 次の例では、ドライバーのバージョンは460.91.03で、CentOS 7.xとCentOS 8.xが使用されています。 driver_versionを、手順1: Teslaドライバーのダウンロードでダウンロードしたドライバーのバージョンに置き換えます。

      • ソースコード

        • CentOS 7.x

          driver_version=460.91.03
          sudo yum -y install yum-utils
          sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
          sudo yum install -y nvidia-fabric-manager-${driver_version}-1
        • CentOS 8.x

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
          distribution=rhel8
          ARCH=$( /bin/arch )
          sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/$distribution/${ARCH}/cuda-$distribution.repo
          sudo dnf module enable -y nvidia-driver:${driver_version_main}
          sudo dnf install -y nvidia-fabric-manager-0:${driver_version}-1
      • インストールパッケージ

        • CentOS 7.x

          driver_version=460.91.03
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
          sudo rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
        • CentOS 8.x

          driver_version=460.91.03
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
          sudo rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
    2. 次のコマンドを実行してNVIDIA Fabric Managerを起動します。

      sudo systemctl enable nvidia-fabricmanager
      sudo systemctl start nvidia-fabricmanager
    3. 次のコマンドを実行して、NVIDIA Fabric Managerがインストールされているかどうかを確認します。

      systemctl status nvidia-fabricmanager

      次のコマンド出力が表示された場合、NVIDIA Fabric Managerがインストールされています。

      Dingtalk_20240910143221.jpg

Ubuntuなどの他のLinuxディストリビューション

  1. インストールパッケージの権限をTeslaドライバーに付与し、ドライバーをインストールします。

    この例では、Linuxの64ビットTeslaドライバが使用されています。 を使用することを推奨します。Teslaドライバのインストールパッケージ (NVIDIA-Linux-x86_64-xxxx.runパッケージなど) を実行します。 次のコマンドを実行して、インストールパッケージに実行権限を付与し、Teslaドライバーをインストールします。

    説明

    Teslaドライバのインストールパッケージが、次のような別の形式である場合。debまたは。rpm形式は、インストール方法についてはNVIDIA CUDA Installation Guide for Linuxを参照してください。

    sudo chmod + x NVIDIA-Linux-x86_64-xxxx.run

    sudo sh NVIDIA-Linux-x86_64-xxxx.run
  2. 次のコマンドを実行して、Teslaドライバがインストールされているかどうかを確認します。

    nvidia-smi

    次のコマンド出力が表示されると、Teslaドライバがインストールされます。

    驱动版本.jpg

  3. (オプション) NVIDIA persistence Daemonを使用して、永続化モード (Persistence-M) を有効にします。

    Teslaドライバがインストールされた後、Persistence-Mはデフォルトで無効 (オフ) 状態になります。 Teslaドライバーは、Persistence-Mを有効にすると、より安定したパフォーマンスを実現できます。 ビジネスの継続性を確保するために、NVIDIA Persistence Daemonを使用してPersistence-Mを有効にすることを推奨します。 詳細については、「NVIDIAの公式WebサイトのPersistence Daemon」をご参照ください。

    説明
    1. 次のコマンドを実行して、NVIDIA Persistence Daemonを実行します。

      sudo nvidia-persistenced -- user username
      # ユーザー名をユーザー名に置き換えます。
    2. 次のコマンドを実行して、Persistence-Mのステータスを表示します。

      nvidia-smi

      次のコマンド出力が表示されている場合、Persistence-Mは有効 (オン) 状態です。

      persistence.jpg

  4. (オプション) システムを再起動した後、Persistence-Mを有効にします。

    システムを再起動すると、Persistence-Mの有効 (オン) 状態が無効になります。 Persistence-Mを有効にするには、次の操作を実行します。

    Teslaドライバーインストールパッケージをインストールして、NVIDIAが提供するサンプルスクリプトやインストーラスクリプトなどのインストールスクリプトを /usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2のパスにインストールします。

    1. 次のコマンドを実行して、NVIDIAが提供するインストールスクリプトを解凍してインストールします。

      cd /usr/share/doc/NVIDIA_GLX-1.0 /サンプル /
      sudo tar xf nvidia-persistenced-init.tar.bz2
      cd nvidia-persistenced-init
      sudo sh install.sh 
    2. 次のコマンドを実行して、NVIDIA Persistence Daemonが期待どおりに実行されるかどうかを確認します。

      sudo systemctlステータスnvidia-persistenced

      次のコマンド出力が表示された場合、NVIDIA Persistenceデーモンは期待どおりに実行されます。

      persistence Daemon.jpg

      説明

      NVIDIA Persistence Daemonインストールスクリプトをオペレーティングシステムに基づいて調整し、NVIDIA Persistence Daemonが期待どおりに機能するようにすることができます。

    3. 次のコマンドを実行して、Persistence-Mが有効 (オン) 状態であることを確認します。

      nvidia-smi
    4. (オプション) 次のコマンドを実行して、NVIDIA Persistence Daemonを無効にします。

      ビジネス要件に基づいて、NVIDIA Persistence Daemonを無効にできます。

      sudo systemctl stop nvidia-永続化
      sudo systemctl disable nvidia-persistenced 
  5. (条件付きで必要) ドライバーのバージョンに一致するNVIDIA Fabric Managerをインストールします。 この操作は、GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合に必要です。.

    重要
    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eインスタンスファミリーに属している場合ドライバのバージョンに一致するNVIDIA Fabric Managerをインストールする必要があります。 それ以外の場合は、インスタンスを期待どおりに使用できません。

    • GPUアクセラレーションインスタンスがebmgn7またはebmgn7eに属していない場合は、この操作をスキップできます。 インスタンスファミリー

    1. NVIDIA Fabric Managerをインストールします。

      ソースコードまたはインストールパッケージを使用して、NVIDIA Fabric Managerをインストールできます。 NVIDIA Fabric Managerのインストールに必要なコマンドは、オペレーティングシステムによって異なります。 次の例では、ドライババージョンは460.91.03および535.154.05であり、Ubuntu 16.04、Ubuntu 18.04、Ubuntu 20.04、およびUbuntu 22.04が使用されています。 driver_versionを、手順1: Teslaドライバーのダウンロードでダウンロードしたドライバーのバージョンに置き換えます。

      重要

      Ubuntu 22.04にNVIDIA Fabric Managerをインストールする場合、Teslaドライバーのバージョンは515.48.07以降でなければなりません。 Ubuntu 22.04の次のサンプルコマンドでは、ドライバーのバージョンは535.154.05です。

      • ソースコード

        Ubuntu 16.04、Ubuntu 18.04、またはUbuntu 20.04

        driver_version=460.91.03
        driver_version_main=$(echo $driver_version | awk -F '.'{print $1}')
        distribution=$(.) /etc/os-release;echo $ID$VERSION_ID | sed -e 's/\.// g')
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-$distribution.pin
        sudo mv cuda-$distribution.pin /etc/apt/preferences.d/cuda-repository-pin-600
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/3bf863cc.pub
        sudo apt-key追加3bf863cc.pub
        sudo rm 3bf863cc.pub
        sudo echo "deb https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64 /" | ティー /etc/apt/sources.list.d/cuda.list
        sudo apt-getアップデート
        sudo apt-get -y install nvidia-fabricmanager-${driver_version_main }=${ driver_version}-* 

        Ubuntu 22.04

        driver_version=535.154.05
        driver_version_main=$(echo $driver_version | awk -F '.'{print $1}')
        distribution=$(.) /etc/os-release;echo $ID$VERSION_ID | sed -e 's/\.// g')
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-$distribution.pin
        sudo mv cuda-$distribution.pin /etc/apt/preferences.d/cuda-repository-pin-600
        sudo wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/3bf863cc.pub
        sudo apt-key追加3bf863cc.pub
        sudo rm 3bf863cc.pub
        sudo echo "deb https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64 /" | ティー /etc/apt/sources.list.d/cuda.list
        sudo apt-getアップデート
        sudo apt-get -y install nvidia-fabricmanager-${driver_version_main }=${ driver_version}-* 
      • インストールパッケージ

        • Ubuntu 16.04

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.'{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb 
        • Ubuntu 18.04

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.'{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb 
        • Ubuntu 20.04

          driver_version=460.91.03
          driver_version_main=$(echo $driver_version | awk -F '.'{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb 
        • Ubuntu 22.04

          driver_version=535.154.05
          driver_version_main=$(echo $driver_version | awk -F '.'{print $1}')
          sudo wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb
          sudo dpkg -i nvidia-fabricmanager-${driver_version_main }_${ driver_version}-1_amd64.deb 
    2. 次のコマンドを実行してNVIDIA Fabric Managerを起動します。

      sudo systemctlを有効にするnvidia-fabricmanager
      sudo systemctlスタートnvidia-fabricmanager 
    3. 次のコマンドを実行して、NVIDIA Fabric Managerがインストールされているかどうかを確認します。

      systemctlステータスnvidia-fabricmanager

      次のコマンド出力が表示された場合、NVIDIA Fabric Managerがインストールされています。

      image.png

      説明

      GPUは、NVIDIA Fabric ManagerのバージョンがTeslaドライバーのバージョンと一致している場合にのみ、期待どおりに動作します。 Ubuntuを実行するGPUアクセラレーションのコンピューティング最適化インスタンスの場合、インストールパッケージを使用してNVIDIA Fabric Managerをインストールすると、apt-dailyサービスによってNVIDIA Fabric Managerが自動的に更新されることがあります。 これにより、NVIDIA Fabric ManagerとTeslaドライバーの間でバージョンの不一致が発生します。 その結果、NVIDIA Fabric Managerの起動に失敗し、GPUが期待どおりに動作しなくなります。 この問題を解決する方法については、nvidia-fabricmanagerバージョンがTeslaドライバーバージョンと矛盾しているためにGPUが機能しない場合はどうすればよいですか?

関連ドキュメント