全部產品
Search
文件中心

Elastic GPU Service:重啟GPU執行個體後導致Persistence Mode屬性開啟失效, 同時ECC狀態或MIG功能設定也失敗

更新時間:Aug 23, 2024

在GPU計算型執行個體中安裝高版本Tesla驅動(例如驅動版本為535或更高版本)後,通過nvidia-smi -pm 1命令方式開啟Persistence Mode屬性,可能會因為驅動版本過高,重啟執行個體後導致該屬性開啟失效,同時ECC狀態或MIG功能設定也失敗,本文介紹這種情況的解決方案。

問題現象

在GPU計算型執行個體中安裝Tesla驅動(Linux)時,該驅動版本為535或更高版本,通過nvidia-smi -pm 1命令方式開啟Persistence Mode屬性後,可能會導致以下問題:

  • 重啟GPU執行個體後,導致Persistence Mode屬性開啟失效(即Persistence Mode仍預設為Off狀態)。

  • ECC狀態設定失敗。

  • MIG功能設定失敗。

問題原因

由於Tesla驅動版本過高,即驅動版本為535或更高版本時,同時通過nvidia-smi -pm 1命令開啟Persistence Mode屬性,重啟GPU執行個體後導致上述問題發生。

解決方案

查看dmesg日誌時,如果存在以下提示,建議您通過NVIDIA Persistence Daemon方式開啟Persistence Mode屬性。具體操作,請參見通過NVIDIA Persistence Daemon方式開啟Persistence-M

NVRM: Persistence mode is deprecated and will be removed in a future release. Please use nvidia-persistenced instead.