全部產品
Search
文件中心

Elastic GPU Service:GPU雲端服務器常見問題

更新時間:Jan 07, 2026

為了有效排查和解決GPU雲端服務器的相關問題,本文為您匯總了使用GPU時遇到的一些常見問題。

類別

相關問題

GPU執行個體

GPU顯卡

GPU顯存

GPU驅動

GPU監控

如何查看GPU執行個體的資源使用量(vCPU、網路流量、頻寬以及磁碟等)?

其他

如何安裝cGPU服務?

安裝cGPU服務後執行nvidia-smi -r卡住

GPU執行個體

GPU執行個體支援安卓模擬器嗎?

僅部分GPU執行個體支援安裝安卓模擬器。

除GPU計算型ECS Bare Metal Instance執行個體規格類型系列ebmgn7e、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i支援安卓模擬器外,其他類型的GPU執行個體均不支援安卓模擬器。

GPU執行個體的配置支援變更嗎?

僅部分GPU執行個體的配置支援變更。

詳細的執行個體規格變更配置支援情況,請參見規格變更限制與自檢

普通ECS執行個體規格類型系列是否支援升級或變更為GPU執行個體規格類型系列?

普通ECS執行個體規格類型系列不支援直接升級或變更為GPU執行個體規格類型系列。

詳細的執行個體規格變更配置支援情況,請參見規格變更限制與自檢

如何在GPU執行個體和普通ECS執行個體間傳輸資料?

無需特別設定即可傳輸資料。

GPU執行個體除了GPU加速能力外,保留了與普通ECS執行個體一致的使用體驗。同一安全性群組內的GPU執行個體和ECS執行個體之間預設內網互連,所以您無需特別設定。

GPU與CPU有什麼區別?

GPU與CPU的對比如下表所示:

對比項

GPU

CPU

算術運算單元(ALU)

擁有大量擅長處理大規模並發計算的算術運算單元(ALU)。

擁有強大的算術運算單元(ALU),但數量較少。

邏輯控制單元

擁有相對簡單的邏輯控制單元。

擁有複雜的邏輯控制單元。

緩衝

擁有很少的緩衝,且緩衝用於服務線程,而不是用於儲存訪問的資料。

擁有大量的緩衝結構,能夠將資料儲存至緩衝,從而提高訪問速度,降低時延。

回應程式式

需要將全部任務整合後,再進行批處理。

即時響應,對單個任務的響應速度較高。

適用情境

適用於計算密集,相似性高,且多線程並行的高輸送量運算情境。

適用於對響應速度有要求,且邏輯複雜的串列運算情境。

GPU顯卡

購買GPU執行個體後,為什麼執行nvidia-smi命令找不到GPU顯卡?

問題原因:當您執行nvidia-smi命令無法找到GPU顯卡時,通常是由於您的GPU執行個體未安裝或者未成功安裝Tesla或GRID驅動。

解決措施:請根據您所購買的GPU執行個體規格選擇對應的操作來安裝相應驅動,才能正常使用GPU執行個體的高效能特性。具體說明如下:

如何查看GPU顯卡的詳細資料?

不同作業系統的GPU執行個體,查看GPU顯卡資訊的操作有所不同,具體說明如下:

  • 針對Linux作業系統,您可以執行nvidia-smi命令查看GPU顯卡的詳細資料。

  • 針對Windows作業系統,您可以在裝置管理員 > 顯示適配器中查看GPU顯卡的詳細資料。

說明

如果您需要瞭解GPU顯卡的空閑率、使用率、溫度以及功率等資訊,可以前往CloudMonitor控制台查看。具體操作,請參見GPU監控

在Linux系統上使用GPU時出現GPU初始化失敗(如RmInitAdapter failed!)問題

  • 問題現象:使用GPU執行個體時出現GPU裝置離線,系統無法識別顯卡裝置。例如在Linux系統上使用GPU時,出現GPU卡初始化失敗的錯誤提示。執行sh nvidia-bug-report.sh命令後,在產生的日誌中,看到RmInitAdapter failed錯誤資訊,如下圖所示:

    image

  • 問題原因:可能是GPU的GSP(GPU System Processor)組件運行狀態異常,導致觸發裝置離線,系統無法識別顯卡裝置。

  • 解決方案:通過控制台重啟執行個體,可完成一次徹底的GPU reset,通常可解決此問題。如果問題仍然存在,請參考使用GPU時出現XID 119/XID 120錯誤導致GPU掉卡進一步處理,建議關閉GSP功能。

GPU顯存

為什麼48G顯存的GPU執行個體,nvidia-smi顯示的總顯存少了約3G?

這是因為開啟了ECC(錯誤檢查和糾正)功能,ECC會按比例佔用部分顯存(48G執行個體約佔用2-3G)。可通過nvidia-smi命令檢查ECC狀態,OFF代表未開啟,ON代表開啟。

如何禁用GPU的ECC功能以釋放顯存?

  1. 命令列操作: 停止所有使用GPU的進程,執行nvidia-smi -e 0禁用,再執行 nvidia-smi -r 重設GPU。

  2. 啟動指令碼操作:nvidia-smi -e 0nvidia-smi -r寫入/etc/rc.local(部分系統為/etc/rc.d/rc.local)啟動指令碼首行,重啟執行個體

用nvidia-smi -e 0 禁用ecc出現報錯提示the following GPUs cloud not another client如何處理?

報錯說明仍有組件或進程在使用GPU。請確保機器上無GPU進程運行。如果無法手動停止,建議做好快照備份後,將nvidia-smi -e 0nvidia-smi -r命令寫入啟動指令碼/etc/rc.local(部分系統為/etc/rc.d/rc.local),重啟執行個體生效。

GPU驅動

GPU虛擬化型執行個體需要安裝什麼驅動?

GPU虛擬化型執行個體需要安裝GRID驅動。

針對通用計算情境或圖形加速情境,您可以在建立GPU執行個體時同步載入GRID驅動,也可以在建立GPU執行個體後通過雲助手方式安裝GRID驅動,安裝方式如下:

GPU虛擬化型執行個體是否支援將CUDA升級到12.4或將NVIDIA驅動升級到550以上?

不支援。

虛擬化GPU執行個體依賴於平台提供的GRID驅動,其版本更新受限,無法隨意安裝NVIDIA官網驅動。如需升級,可使用gn/ebm系列GPU執行個體。

在GPU計算型執行個體上使用OpenGL、Direct3D等工具做圖形加速時,需要安裝什麼驅動?

請根據您所使用的GPU執行個體的作業系統來安裝相應驅動。具體說明如下:

為什麼建立GPU執行個體時選擇的CUDA版本與安裝完成後查看到的CUDA版本不一致?

您執行命令nvidia-smi查詢到的CUDA版本代表您的GPU執行個體能夠支援的最高CUDA版本,並不代表您建立GPU執行個體時選擇的CUDA版本。

GPU執行個體(Windows系統)安裝GRID驅動後,通過控制台VNC遠端連線該執行個體出現黑屏怎麼辦?

  • 問題原因:當Windows作業系統的GPU執行個體安裝了GRID驅動後,虛擬機器(VM)的顯示輸出被GRID驅動接管,VNC無法再擷取到整合顯卡的畫面,因此,VNC顯示會變成黑屏狀態,屬於正常現象。

  • 解決方案:使用Workbench串連GPU執行個體。具體操作,請參見使用Workbench登入Windows執行個體

如何擷取GRID License?

請根據您使用的作業系統查看對應的擷取方式,具體說明如下:

如何升級GPU驅動(Tesla驅動或GRID驅動)?

GPU驅動(Tesla驅動或GRID驅動)不能直接升級版本,需要先卸載之前的舊版本驅動,然後重啟系統來安裝新版本驅動,具體操作,請參見升級Tesla或GRID驅動

重要

建議您在業務低峰期升級驅動,升級前請先建立快照備份雲端硬碟資料,避免資料丟失,具體操作,請參見建立快照

安裝 NVIDIA 驅動版本 570.124.xx(Linux)或 572.61(Windows)後系統崩潰,出現kernel NULL pointer dereference錯誤

  • 問題現象:在部分執行個體規格中,安裝570.124.xx(Linux)/572.61(Windows)版本NVIDIA驅動或安裝後執行nvidia-smi命令時,系統報錯kernel NULL pointer dereference。日誌如下所示:

    錯誤記錄檔

    [  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
    [  305.164303] #PF: supervisor read access in kernel mode
    [  305.164447] #PF: error_code(0x0000) - not-present page
    [  305.164626] PGD 0 P4D 0
    [  305.164724] Oops: 0000 [#1] SMP NOPTI
    [  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
    [  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
    [  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.169052] PKRU: 55555554
    [  305.169157] Call Trace:
    [  305.169252]  ? __die+0x20/0x70
    [  305.169372]  ? no_context+0x5f/0x260
    [  305.169504]  ? exc_page_fault+0x68/0x130
    [  305.169651]  ? asm_exc_page_fault+0x1e/0x30
    [  305.169815]  ? pci_read_config_dword+0x5/0x40
    [  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
    [  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
    [  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
    [  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
    [  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
    [  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
    [  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
    [  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
    [  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
    [  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
    [  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
    [  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
    [  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
    [  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
    [  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
    [  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
    [  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
    [  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
    [  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
    [  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.176527]  ? kthread+0x118/0x140
    [  305.176869]  ? __kthread_bind_mask+0x60/0x60
    [  305.177230]  ? ret_from_fork+0x1f/0x30
    [  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
    [  305.180787] CR2: 00000000000000c4
    [  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
    [  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.188361] PKRU: 55555554
    [  305.188719] Kernel panic - not syncing: Fatal exception
    [  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
  • 解決方案:請避免使用570.124.xx(Linux)/572.61(Windows)版本驅動,推薦使用570.133.20(Linux)/572.83(Windows)或更高版本。

安裝驅動時kernel module types選擇NVIDIA Proprietary,執行nvidia-smi命令報錯No devices were found

  • 問題現象:在部分執行個體規格中,安裝驅動時kernel module types選擇NVIDIA Proprietary,安裝完成後執行nvidia-smi命令報錯No devices were found(找不到GPU裝置)。

    image

    image

  • 問題原因:不是所有的GPU型號都相容NVIDIA Proprietary驅動。

  • kernel module types配置建議

    • 對於Blackwell架構GPU:必須使用開源驅動(選擇MIT/GPL)。

    • 對於TuringAmpereAda LovelaceHopper架構GPU:推薦使用開源驅動(選擇 MIT/GPL)。

    • 對於MaxwellPascalVolta架構GPU:僅支援選擇NVIDIA Proprietary

GPU監控

如何查看GPU執行個體的資源使用量(vCPU、網路流量、頻寬以及磁碟等)?

如需查看執行個體的vCPU使用率、記憶體、系統平均負載、內網頻寬 、公網頻寬、網路連接數、磁碟使用與讀取、GPU使用率,顯存使用量、GPU功率等監控資料,請通過以下方法查詢。

  • 雲產品控制台

    • Elastic Compute Service控制台:提供vCPU使用率、網路流量、磁碟I/O以及GPU監控等指標資訊。具體操作,請參見通過ECS控制台查看監控資訊

    • CloudMonitor控制台:提供更加精細化的監控粒度,例如查看基礎監控、作業系統監控、GPU監控、網路監控、進程監控以及雲端硬碟監控等指標資訊,更多資訊,請參見主機監控

  • 費用與成本中心

    查看用量明細頁面,通過篩選以下欄位(以查看ECS執行個體的流量使用方式為例),即包括待查詢的時間周期商品名稱(雲產品名稱)、計費項目名稱計量規格以及計量粒度欄位,單擊匯出CSV,匯出執行個體的相關資源使用量資訊。具體操作,請參見賬單詳情

    用量明細-zh

    說明

    用量明細所提供的資料為資源的原始用量,與賬單明細所提供的參與計費的用量資料不一致,查詢結果僅供參考,不作為對賬依據。

其他

如何安裝cGPU服務?

無論您是企業認證使用者還是個人實名認證使用者,推薦您通過ACK的Docker運行時環境安裝和使用cGPU服務。具體操作,請參見管理共用GPU調度組件

安裝cGPU服務後執行nvidia-smi -r卡住

  • 問題現象:在已載入 cGPU 服務(可通過lsmod | grep cgpu確認)的環境下,執行nvidia-smi -r重設 GPU 時,命令卡死且無法被終止(kill),同時dmesg系統日誌中出現報錯資訊。

    image

  • 問題原因:cGPU 組件仍佔用了 GPU 裝置,導致硬體重設操作被阻塞。

  • 解決方案

    1. 卸載 cGPU:請先卸載 cGPU 組件,卸載後nvidia-smi -r會恢複執行並返回結果。

    2. 重啟執行個體:若卸載後仍存在問題,請在控制台重啟執行個體(在執行個體內部執行reboot無效)。

    重要

    載入cGPU時請勿重設GPU(如執行nvidia-smi -r、解除綁定裝置或重裝驅動)。請務必先卸載cGPU再進行操作,以免引發故障。