全部產品
Search
文件中心

Elastic GPU Service:GPU雲端服務器常見問題

更新時間:Oct 25, 2024

為了有效排查和解決GPU雲端服務器的相關問題,本文為您匯總了使用GPU時遇到的一些常見問題。

類別

相關問題

GPU執行個體

GPU顯卡

Tesla驅動或GRID驅動

GPU監控

如何查看GPU監控資料?

其他

如何安裝cGPU服務?

GPU執行個體支援安卓模擬器嗎?

僅部分GPU執行個體支援安裝安卓模擬器。

除GPU計算型ECS Bare Metal Instance執行個體規格類型系列ebmgn7e、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i支援安卓模擬器外,其他類型的GPU執行個體均不支援安卓模擬器。

GPU執行個體的配置支援變更嗎?

僅部分GPU執行個體的配置支援變更。

詳細的執行個體規格變更配置支援情況,請參見支援變更配置的執行個體規格

普通ECS執行個體規格類型系列是否支援升級或變更為GPU執行個體規格類型系列?

普通ECS執行個體規格類型系列不支援直接升級或變更為GPU執行個體規格類型系列。

詳細的執行個體規格變更配置支援情況,請參見支援變更配置的執行個體規格

如何在GPU執行個體和普通ECS執行個體間傳輸資料?

無需特別設定即可傳輸資料。

GPU執行個體除了GPU加速能力外,保留了與普通ECS執行個體一致的使用體驗。同一安全性群組內的GPU執行個體和ECS執行個體之間預設內網互連,所以您無需特別設定。

GPU與CPU有什麼區別?

GPU與CPU的對比如下表所示:

對比項

GPU

CPU

算術運算單元(ALU)

擁有大量擅長處理大規模並發計算的算術運算單元(ALU)。

擁有強大的算術運算單元(ALU),但數量較少。

邏輯控制單元

擁有相對簡單的邏輯控制單元。

擁有複雜的邏輯控制單元。

緩衝

擁有很少的緩衝,且緩衝用於服務線程,而不是用於儲存訪問的資料。

擁有大量的緩衝結構,能夠將資料儲存至緩衝,從而提高訪問速度,降低時延。

回應程式式

需要將全部任務整合後,再進行批處理。

即時響應,對單個任務的響應速度較高。

適用情境

適用於計算密集,相似性高,且多線程並行的高輸送量運算情境。

適用於對響應速度有要求,且邏輯複雜的串列運算情境。

購買GPU執行個體後,為什麼執行nvidia-smi命令找不到GPU顯卡?

問題原因:當您執行nvidia-smi命令無法找到GPU顯卡時,通常是由於您的GPU執行個體未安裝或者未成功安裝Tesla或GRID驅動。

解決措施:請根據您所購買的GPU執行個體規格選擇對應的操作來安裝相應驅動,才能正常使用GPU執行個體的高效能特性。具體說明如下:

如何查看GPU顯卡的詳細資料?

不同作業系統的GPU執行個體,查看GPU顯卡資訊的操作有所不同,具體說明如下:

  • 針對Linux作業系統,您可以執行nvidia-smi命令查看GPU顯卡的詳細資料。

  • 針對Windows作業系統,您可以在裝置管理員 > 顯示適配器中查看GPU顯卡的詳細資料。

說明

如果您需要瞭解GPU顯卡的空閑率、使用率、溫度以及功率等資訊,可以前往CloudMonitor控制台查看。具體操作,請參見GPU監控

GPU虛擬化型執行個體需要安裝什麼驅動?

GPU虛擬化型執行個體需要安裝GRID驅動。

針對通用計算情境或圖形加速情境,您可以在建立GPU執行個體時同步載入GRID驅動,也可以在建立GPU執行個體後通過雲助手方式安裝GRID驅動,安裝方式如下:

在GPU計算型執行個體上使用OpenGL、Direct3D等工具做圖形加速時,需要安裝什麼驅動?

請根據您所使用的GPU執行個體的作業系統來安裝相應驅動。具體說明如下:

為什麼建立GPU執行個體時選擇的CUDA版本與安裝完成後查看到的CUDA版本不一致?

您執行命令nvidia-smi查詢到的CUDA版本代表您的GPU執行個體能夠支援的最高CUDA版本,並不代表您建立GPU執行個體時選擇的CUDA版本。

GPU執行個體(Windows系統)安裝GRID驅動後,通過控制台VNC遠端連線該執行個體出現黑屏怎麼辦?

  • 問題原因:當Windows作業系統的GPU執行個體安裝了GRID驅動後,虛擬機器(VM)的顯示輸出被GRID驅動接管,VNC無法再擷取到整合顯卡的畫面,因此,VNC顯示會變成黑屏狀態,屬於正常現象。

  • 解決方案:使用Workbench串連GPU執行個體。具體操作,請參見通過密碼或密鑰認證登入Windows執行個體

如何擷取GRID License?

請根據您使用的作業系統查看對應的擷取方式,具體說明如下:

如何查看GPU監控資料?

您可以通過CloudMonitor控制台或API介面DescribeMetricList查看GPU監控資料,更多資訊,請參見GPU監控

如何安裝cGPU服務?

無論您是企業認證使用者還是個人實名認證使用者,推薦您通過ACK的Docker運行時環境安裝和使用cGPU服務。具體操作,請參見安裝共用GPU調度組件