全部產品
Search
文件中心

Elastic GPU Service:卸載Tesla驅動

更新時間:Jun 30, 2024

如果當前NVIDIA Tesla驅動因某種原因需要卸載,請按照驅動的作業系統選擇相應的卸載方法。

警告

GPU執行個體必須配備了相關驅動才可以正常使用。如果您因某種原因需要卸載當前驅動,請務必再安裝與您執行個體規格及作業系統相匹配的正確驅動,否則會因GPU執行個體與安裝的驅動不匹配而造成業務無法正常進行的風險。

在Windows作業系統中卸載Tesla驅動

以作業系統為Windows Server 2019的GPU計算型執行個體gn6i為例,該執行個體安裝了472.50版本的Tesla驅動,現因某些原因需要卸載,具體請參考以下操作。

  1. 遠端連線GPU執行個體。

  2. 單擊Windows案頭左下角Windows表徵圖,然後單擊控制台

    2021-09-16_15-00-07

  3. 控制台中,選擇程式 > 卸載程式

    2021-09-16_16-02-45

  4. 按右鍵待卸載的Tesla驅動(例如NVIDIA 圖形驅動程式 472.50),然後單擊卸載/更改(U)

  5. 在彈出的NVIDIA 卸載程式對話方塊,單擊卸載(U)

  6. 卸載完成後,單擊馬上重新啟動(R)

    重啟完成後,則Tesla驅動已卸載成功。

在Linux作業系統中卸載Tesla驅動

由於Tesla驅動的安裝方式不同,其卸載Tesla驅動的方法也有所差異,請您根據實際Tesla驅動的安裝情境選擇對應的卸載方法,以下操作以Tesla驅動470.161.03、CUDA 11.4.1為例。

說明

Linux系統的相關步驟均需要以root使用者登入並進行操作,如果您是普通使用者,請使用sudo命令擷取root許可權後再操作。

(條件必選)步驟1:卸載nvidia-fabricmanager服務

僅當GPU執行個體的規格類型系列為ebmgn7、ebmgn7e時,您需要卸載nvidia-fabricmanager服務。以Tesla驅動版本為470.161.03為例,具體操作如下所示。

重要

如果您建立的GPU執行個體的規格類型系列不是ebmgn7、ebmgn7e時,請直接執行步驟2

  1. 執行以下命令,停止nvidia-fabricmanager服務。

    systemctl stop nvidia-fabricmanager
    systemctl disable nvidia-fabricmanager
  2. 執行以下命令,卸載nvidia-fabricmanager安裝包。

    根據不同的作業系統,卸載nvidia-fabricmanager安裝包的方式也不同。

    • CentOS或Alibaba Cloud Linux

      #查看安裝包名
      rpm -qa | grep nvidia-fabric-manager
      
      #執行卸載命令
      rpm -e nvidia-fabric-manager-470.161.03-1.x86_64
    • Ubuntu

      #查看安裝包名
      dpkg --list |grep nvidia-fabricmanager
      
      #執行卸載命令
      apt remove nvidia-fabricmanager-470

    步驟2:卸載Tesla驅動

    如果您在Ubuntu、CentOS、Alibaba Cloud Linux、SUSE作業系統中使用不同安裝包(例如run安裝包、deb安裝包、rpm安裝包)安裝了Tesla驅動,因某種原因需要手動卸載時,請按照Tesla驅動的不同安裝情境選擇對應的卸載方法。

    情境1:使用run安裝包安裝了Tesla驅動

    如果在建立GPU執行個體時同時自動安裝了Tesla驅動,則該驅動的卸載需選擇通過run安裝包的卸載方式。以Tesla驅動470.161.03、CUDA 11.4.1為例,具體操作如下所示。

    1. 執行以下命令,卸載Tesla驅動。

      /usr/bin/nvidia-uninstall
    2. 執行以下命令,卸載CUDA。

      /usr/local/cuda/bin/cuda-uninstaller
      rm -rf /usr/local/cuda-11.4

      run方式

      說明

      不同CUDA版本,卸載命令可能存在差別,如果未找到cuda-uninstaller檔案,請到/usr/local/cuda/bin/目錄下查看是否存在uninstall_cuda開頭的檔案。如果有,則將命令中的cuda-uninstaller替換為該檔案名稱。

    3. 執行以下命令,重啟執行個體。

      reboot

    情境2:使用deb安裝包安裝了Tesla驅動

    如果您在Ubuntu作業系統中使用deb安裝包安裝了Tesla驅動,以Tesla驅動470.161.03、CUDA 11.4.1為例,驅動卸載操作如下所示。

    1. 執行以下命令,卸載CUDA。

      apt-get --purge remove "*cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*" \
       "*cusolver*" "*cusparse*" "*gds-tools*" "*npp*" "*nvjpeg*" "nsight*" "*nvvm*"
      
      rm -rf /usr/local/cuda-11.4
    2. 執行以下命令,卸載Tesla驅動。

      apt-get --purge remove "*nvidia*" "libxnvctrl*"
    3. 執行以下命令,卸載所有安裝包並清理。

      apt-get autoremove
    4. 執行以下命令,重啟執行個體。

      reboot

    情境3:使用rpm安裝包安裝了Tesla驅動

    根據不同作業系統中使用rpm安裝包安裝了Tesla驅動,其驅動卸載方式也不同。

    CentOS 7或Alibaba Cloud Linux 2作業系統

    如果您在CentOS 7或Alibaba Cloud Linux 2作業系統中使用rpm安裝包安裝了Tesla驅動,以Tesla驅動470.161.03、CUDA 11.4.1為例,驅動卸載操作如下所示。

    1. 執行以下命令,卸載CUDA。

      yum remove "cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*" \
       "*cusolver*" "*cusparse*" "*gds-tools*" "*npp*" "*nvjpeg*" "nsight*" "*nvvm*"
      
      rm -rf /usr/local/cuda-11.4
    2. 執行以下命令,卸載Tesla驅動。

      yum remove "*nvidia*"
    3. 執行以下命令,重啟執行個體完成驅動卸載。

      reboot

    CentOS 8或Alibaba Cloud Linux 3作業系統

    如果您在CentOS 8或Alibaba Cloud Linux 3中使用rpm安裝包安裝了Tesla驅動,以Tesla驅動470.161.03、CUDA 11.4.1為例,驅動卸載操作如下所示。

    1. 執行以下命令,卸載CUDA。

      dnf remove "cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*" \
       "*cusolver*" "*cusparse*" "*gds-tools*" "*npp*" "*nvjpeg*" "nsight*" "*nvvm*"
      
      rm -rf /usr/local/cuda-11.4
    2. 執行以下命令,卸載Tesla驅動。

      dnf module remove --all nvidia-driver
    3. 執行以下命令,重設Tesla驅動模組。

       dnf module reset nvidia-driver
    4. 執行以下命令,重啟執行個體。

      reboot

    SUSE作業系統

    如果您在SUSE作業系統中使用rpm安裝包安裝Tesla驅動,以Tesla驅動470.161.03、CUDA 11.4.1為例,驅動卸載操作如下所示。

    1. 執行以下命令,卸載CUDA。

      zypper remove "cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*" \
       "*cusolver*" "*cusparse*" "*gds-tools*" "*npp*" "*nvjpeg*" "nsight*" "*nvvm*"
      
      rm -rf /usr/local/cuda-11.4
    2. 執行以下命令,卸載Tesla驅動。

      zypper remove "*nvidia*"
    3. 執行以下命令,重啟執行個體。

      reboot

相關文檔

如果您的執行個體已安裝了GRID驅動,卻因某種原因需要卸載當前驅動,具體操作,請參見卸載GRID驅動