全部產品
Search
文件中心

Elastic GPU Service:nvidia-fabricmanager版本與Tesla驅動版本不一致導致GPU無法正常使用

更新時間:Sep 19, 2024

對於Ubuntu作業系統GPU計算型執行個體(即ebmgn7、ebmgn7e),如果您採用安裝包方式安裝了nvidia-fabricmanager服務,則apt-daily服務可能會自動更新已安裝的軟體包,使得該軟體版本與Tesla驅動版本不一致,產生版本相容性問題,導致nvidia-fabricmanager服務啟動失敗,最終影響GPU無法正常使用,本文介紹這種情況的解決方案。

問題現象

採用安裝包方式安裝nvidia-fabricmanager服務後,查看該服務狀態時,出現如下報錯資訊,該情況會導致GPU無法正常使用。

報錯.jpg

問題原因

在Ubuntu系統的GPU執行個體上,通過安裝包方式安裝了nvidia-fabricmanager服務後,由於apt-daily服務會自動更新nvidia-fabricmanager軟體,使得該軟體版本與Tesla驅動版本不一致,基於版本相容性問題,導致nvidia-fabricmanager服務啟動失敗,最終影響GPU無法正常使用。

解決方案

nvidia-fabricmanager軟體版本必須與Tesla驅動版本一致,才能確保GPU的正常運行。為了預防或解決nvidia-fabricmanager軟體版本與Tesla驅動版本不一致帶來的GPU無法使用問題,請參考以下操作。

  1. 查看nvidia-fabricmanager軟體和Tesla驅動版本資訊。

    • 執行以下命令,查看nvidia-fabricmanager軟體版本資訊。

      sudo dpkg --list |grep nvidia-fabricmanager

      本樣本以nvidia-fabricmanager軟體版本為550.90.07為例,其中,nvidia-fabricmanager-550為軟體包名稱,550.90.07為軟體版本。

      fabricmanager.jpg

    • 執行以下命令,查看Tesla驅動版本資訊。

      nvidia-smi

      本樣本以Tesla驅動版本為550.90.07為例。

      驅動版本-550.jpg

  2. 確認當前nvidia-fabricmanager版本與Tesla驅動版本是否一致。

    • 如果兩版本一致,繼續執行下一步。

    • 如果兩版本不一致,請選擇以下任一方案:

  3. 執行以下命令,禁止nvidia-fabricmanager軟體被自動更新或升級。

    本樣本以nvidia-fabricmanager-550軟體包名稱為例,請替換成您實際的nvidia-fabricmanager軟體包名稱。

    sudo apt-mark hold nvidia-fabricmanager-550 

    顯示結果如下,表示nvidia-fabricmanager軟體已禁止更新。

    禁止自動升級.jpg

  4. 執行以下命令,確認nvidia-fabricmanager軟體更新已被鎖定(hold)。

    sudo apt-mark showhold

    例如結果顯示cloud-initnvidia-fabricmanager-550資訊,表示相應的軟體更新已被鎖定。

    showhold.jpg