在GPU計算型執行個體中安裝高版本Tesla驅動(例如驅動版本為535或更高版本)後,通過nvidia-smi -pm 1
命令方式開啟Persistence Mode屬性,可能會因為驅動版本過高,重啟執行個體後導致該屬性開啟失效,同時ECC狀態或MIG功能設定也失敗,本文介紹這種情況的解決方案。
問題現象
在GPU計算型執行個體中安裝Tesla驅動(Linux)時,該驅動版本為535或更高版本,通過nvidia-smi -pm 1
命令方式開啟Persistence Mode屬性後,可能會導致以下問題:
重啟GPU執行個體後,導致Persistence Mode屬性開啟失效(即Persistence Mode仍預設為
Off
狀態)。ECC狀態設定失敗。
MIG功能設定失敗。
問題原因
由於Tesla驅動版本過高,即驅動版本為535或更高版本時,同時通過nvidia-smi -pm 1
命令開啟Persistence Mode屬性,重啟GPU執行個體後導致上述問題發生。
解決方案
查看dmesg日誌時,如果存在以下提示,建議您通過NVIDIA Persistence Daemon方式開啟Persistence Mode屬性。具體操作,請參見通過NVIDIA Persistence Daemon方式開啟Persistence-M。
NVRM: Persistence mode is deprecated and will be removed in a future release. Please use nvidia-persistenced instead.