對於Ubuntu作業系統GPU計算型執行個體(即ebmgn7、ebmgn7e),如果您採用安裝包方式安裝了nvidia-fabricmanager服務,則apt-daily服務可能會自動更新已安裝的軟體包,使得該軟體版本與Tesla驅動版本不一致,產生版本相容性問題,導致nvidia-fabricmanager服務啟動失敗,最終影響GPU無法正常使用,本文介紹這種情況的解決方案。
問題現象
採用安裝包方式安裝nvidia-fabricmanager服務後,查看該服務狀態時,出現如下報錯資訊,該情況會導致GPU無法正常使用。
問題原因
在Ubuntu系統的GPU執行個體上,通過安裝包方式安裝了nvidia-fabricmanager服務後,由於apt-daily服務會自動更新nvidia-fabricmanager軟體,使得該軟體版本與Tesla驅動版本不一致,基於版本相容性問題,導致nvidia-fabricmanager服務啟動失敗,最終影響GPU無法正常使用。
解決方案
nvidia-fabricmanager軟體版本必須與Tesla驅動版本一致,才能確保GPU的正常運行。為了預防或解決nvidia-fabricmanager軟體版本與Tesla驅動版本不一致帶來的GPU無法使用問題,請參考以下操作。
查看nvidia-fabricmanager軟體和Tesla驅動版本資訊。
執行以下命令,查看nvidia-fabricmanager軟體版本資訊。
sudo dpkg --list |grep nvidia-fabricmanager
本樣本以nvidia-fabricmanager軟體版本為
550.90.07
為例,其中,nvidia-fabricmanager-550
為軟體包名稱,550.90.07
為軟體版本。執行以下命令,查看Tesla驅動版本資訊。
nvidia-smi
本樣本以Tesla驅動版本為
550.90.07
為例。
確認當前nvidia-fabricmanager版本與Tesla驅動版本是否一致。
如果兩版本一致,繼續執行下一步。
如果兩版本不一致,請選擇以下任一方案:
升級Tesla驅動確保與nvidia-fabricmanager版本保持一致。具體操作,請參見升級NVIDIA Tesla驅動。
卸載當前nvidia-fabricmanager服務並重新安裝後,繼續執行下一步。
說明如需瞭解如何卸載nvidia-fabricmanager服務,請參見步驟1:卸載nvidia-fabricmanager服務。
執行以下命令,禁止nvidia-fabricmanager軟體被自動更新或升級。
本樣本以
nvidia-fabricmanager-550
軟體包名稱為例,請替換成您實際的nvidia-fabricmanager軟體包名稱。sudo apt-mark hold nvidia-fabricmanager-550
顯示結果如下,表示nvidia-fabricmanager軟體已禁止更新。
執行以下命令,確認
nvidia-fabricmanager
軟體更新已被鎖定(hold)。sudo apt-mark showhold
例如結果顯示
cloud-init
和nvidia-fabricmanager-550
資訊,表示相應的軟體更新已被鎖定。