Ubuntuを実行し、GPUアクセラレーションコンピューティング最適化インスタンスファミリーebmgn7またはebmgn7eに属するインスタンスの場合インストールパッケージを使用してnvidia-fabricmanagerをインストールすると、apt-dailyサービスはnvidia-fabricmanagerを自動的に更新する場合があります。 これにより、nvidia-fabricmanagerとTeslaドライバーの間にバージョンの不一致が発生します。 その結果、nvidia-fabricmanagerは起動に失敗し、GPUは期待どおりに動作しません。 このトピックでは、この問題の解決策を提供します。
問題の説明
インストールパッケージを使用してnvidia-fabricmanagerをインストールすると、サービスのステータスを表示するときに次のエラーメッセージが表示されます。 この場合、GPUは期待どおりに動作しません。
原因
Ubuntuを実行するGPUアクセラレーションコンピューティング最適化インスタンスにインストールパッケージを使用してnvidia-fabricmanagerをインストールすると、apt-dailyサービスは自動的にnvidia-fabricmanagerを更新します。 これにより、nvidia-fabricmanagerとTeslaドライバーの間にバージョンの不一致が発生します。 その結果、nvidia-fabricmanagerは起動に失敗し、GPUは期待どおりに動作しません。
解決策
GPUは、nvidia-fabricmanagerバージョンがTeslaドライバーバージョンと一致している場合にのみ、期待どおりに動作します。 nvidia-fabricmanagerとTeslaドライバー間のバージョンの不一致によって引き起こされるGPUの利用不能を防止または解決するには、次の手順を実行します。
nvidia-fabricmanagerのバージョンとTeslaドライバーのバージョンを確認してください。
次のコマンドを実行して、nvidia-fabricmanagerのバージョンを確認します。
sudo dpkg --list |grep nvidia-fabricmanager
この例では、nvidia-fabricmanagerバージョンは
550.90.07
です。nvidia-fabricmanager-550
はインストールパッケージの名前です。次のコマンドを実行して、Teslaドライバーのバージョンを確認します。
nvidia-smi
この例では、Teslaドライバのバージョンは
550.90.07
です。
現在のnvidia-fabricmanagerのバージョンがTeslaドライバーのバージョンと一致しているかどうかを確認します。
2つのバージョンが一致している場合は、次のステップに進みます。
2つのバージョンに矛盾がある場合は、次のいずれかの操作を実行します。
Teslaドライバーをアップグレードして、Teslaドライバーのバージョンがnvidia-fabricmanagerのバージョンと一致していることを確認します。 詳細については、「NVIDIA Teslaドライバーのアップグレード」をご参照ください。
nvidia-fabricmanagerをアンインストールして再インストールします。 次に、次のステップに進みます。
説明nvidia-fabricmanagerをアンインストールする方法については、「手順1: nvidia-fabricmanagerのアンインストール」をご参照ください。
次のコマンドを実行して、nvidia-fabricmanagerが自動的に更新されないようにします。
この例では、インストールパッケージ
nvidia-fabricmanager-550
が使用されています。 コマンドのインストールパッケージ名を実際のnvidia-fabricmanagerパッケージ名に置き換えます。sudo apt-mark hold nvidia-fabricmanager-550
次の結果が表示された場合、nvidia-fabricmanagerの更新は禁止されます。
次のコマンドを実行して、
nvidia-fabricmanager
への更新が禁止されていることを確認します。sudo apt-mark showhold
cloud-init
およびnvidia-fabricmanager-550
情報が表示されている場合、nvidia-fabricmanagerへの更新は禁止されます。