すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:nvidia-fabricmanagerバージョンがTeslaドライバーバージョンと矛盾しているためにGPUが機能しない場合はどうすればよいですか?

最終更新日:Oct 08, 2024

Ubuntuを実行し、GPUアクセラレーションコンピューティング最適化インスタンスファミリーebmgn7またはebmgn7eに属するインスタンスの場合インストールパッケージを使用してnvidia-fabricmanagerをインストールすると、apt-dailyサービスはnvidia-fabricmanagerを自動的に更新する場合があります。 これにより、nvidia-fabricmanagerとTeslaドライバーの間にバージョンの不一致が発生します。 その結果、nvidia-fabricmanagerは起動に失敗し、GPUは期待どおりに動作しません。 このトピックでは、この問題の解決策を提供します。

問題の説明

インストールパッケージを使用してnvidia-fabricmanagerをインストールすると、サービスのステータスを表示するときに次のエラーメッセージが表示されます。 この場合、GPUは期待どおりに動作しません。

报错.jpg

原因

Ubuntuを実行するGPUアクセラレーションコンピューティング最適化インスタンスにインストールパッケージを使用してnvidia-fabricmanagerをインストールすると、apt-dailyサービスは自動的にnvidia-fabricmanagerを更新します。 これにより、nvidia-fabricmanagerとTeslaドライバーの間にバージョンの不一致が発生します。 その結果、nvidia-fabricmanagerは起動に失敗し、GPUは期待どおりに動作しません。

解決策

GPUは、nvidia-fabricmanagerバージョンがTeslaドライバーバージョンと一致している場合にのみ、期待どおりに動作します。 nvidia-fabricmanagerとTeslaドライバー間のバージョンの不一致によって引き起こされるGPUの利用不能を防止または解決するには、次の手順を実行します。

  1. nvidia-fabricmanagerのバージョンとTeslaドライバーのバージョンを確認してください。

    • 次のコマンドを実行して、nvidia-fabricmanagerのバージョンを確認します。

      sudo dpkg --list |grep nvidia-fabricmanager

      この例では、nvidia-fabricmanagerバージョンは550.90.07です。 nvidia-fabricmanager-550はインストールパッケージの名前です。

      fabricmanager.jpg

    • 次のコマンドを実行して、Teslaドライバーのバージョンを確認します。

      nvidia-smi

      この例では、Teslaドライバのバージョンは550.90.07です。

      驱动版本-550.jpg

  2. 現在のnvidia-fabricmanagerのバージョンがTeslaドライバーのバージョンと一致しているかどうかを確認します。

    • 2つのバージョンが一致している場合は、次のステップに進みます。

    • 2つのバージョンに矛盾がある場合は、次のいずれかの操作を実行します。

      • Teslaドライバーをアップグレードして、Teslaドライバーのバージョンがnvidia-fabricmanagerのバージョンと一致していることを確認します。 詳細については、「NVIDIA Teslaドライバーのアップグレード」をご参照ください。

      • nvidia-fabricmanagerをアンインストールして再インストールします。 次に、次のステップに進みます。

        説明

        nvidia-fabricmanagerをアンインストールする方法については、「手順1: nvidia-fabricmanagerのアンインストール」をご参照ください。

  3. 次のコマンドを実行して、nvidia-fabricmanagerが自動的に更新されないようにします。

    この例では、インストールパッケージnvidia-fabricmanager-550が使用されています。 コマンドのインストールパッケージ名を実際のnvidia-fabricmanagerパッケージ名に置き換えます。

    sudo apt-mark hold nvidia-fabricmanager-550

    次の結果が表示された場合、nvidia-fabricmanagerの更新は禁止されます。

    禁止自动升级.jpg

  4. 次のコマンドを実行して、nvidia-fabricmanagerへの更新が禁止されていることを確認します。

    sudo apt-mark showhold

    cloud-initおよびnvidia-fabricmanager-550情報が表示されている場合、nvidia-fabricmanagerへの更新は禁止されます。

    showhold.jpg