GPU の機能または操作に関する問題 - Elastic GPU Service - Alibaba Cloud ドキュメントセンター

このトピックでは、Elastic GPU Service に関するよくある質問に回答します。GPU インスタンスの問題のトラブルシューティングと解決にご利用いただけます。

カテゴリ	関連する質問
GPU インスタンス	GPU アクセラレーションインスタンスは Android エミュレータをサポートしていますか？ GPU インスタンスの構成は変更できますか？標準 ECS インスタンスファミリーを GPU インスタンスファミリーにスペックアップまたは変更できますか？ GPU インスタンスと標準 ECS インスタンス間でデータを転送するにはどうすればよいですか？ GPU と CPU の違いは何ですか？
GPU カード	GPU インスタンスを購入した後、nvidia-smi コマンドで GPU カードが見つからないのはなぜですか？ GPU カードの詳細を表示するにはどうすればよいですか？ Linux で GPU を使用しているときに GPU の初期化に失敗した場合 (RmInitAdapter failed! など)、どうすればよいですか？
GPU ドライバー	GPU 仮想化インスタンスにはどのドライバーをインストールする必要がありますか？ GPU コンピューティング最適化インスタンスで OpenGL や Direct3D などのツールを使用してグラフィックスアクセラレーションを行うには、どのドライバーをインストールする必要がありますか？インストール後に表示される CUDA バージョンが、GPU インスタンスの作成時に選択したバージョンと異なるのはなぜですか？ Windows GPU インスタンスに GRID ドライバーをインストールした後、コンソールから VNC 接続を使用するとブラックスクリーンが表示される場合はどうすればよいですか？ GRID ライセンスを取得するにはどうすればよいですか？ GPU ドライバー (Tesla または GRID) をスペックアップするにはどうすればよいですか？ NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) をインストールした後に、システムが kernel NULL pointer dereference エラーでクラッシュした場合はどうすればよいですか？
GPU の監視	GPU インスタンスのリソース使用量 (vCPU、ネットワークトラフィック、帯域幅、ディスク) を表示するにはどうすればよいですか？
その他	cGPU サービスをインストールするにはどうすればよいですか？

GPU アクセラレーションインスタンスは Android エミュレータをサポートしていますか？

いいえ、一部の GPU インスタンスのみが Android エミュレーターをサポートしています。

Android エミュレーターは、次の GPU コンピューティング最適化 ECS ベアメタルインスタンスファミリーでのみサポートされています: ebmgn7e、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i。

GPU インスタンスの構成は変更できますか？

一部の GPU インスタンスの構成のみ変更できます。

構成変更をサポートするインスタンスタイプの詳細については、「インスタンスタイプの変更の制限とチェック」をご参照ください。

標準 ECS インスタンスファミリーを GPU インスタンスファミリーにスペックアップまたは変更できますか？

いいえ、標準 ECS インスタンスファミリーを GPU インスタンスファミリーに直接スペックアップまたは変更することはできません。

構成変更をサポートするインスタンスタイプの詳細については、「インスタンスタイプの変更の制限とチェック」をご参照ください。

GPU インスタンスと標準 ECS インスタンス間でデータを転送するにはどうすればよいですか？

データを転送するために特別な設定は必要ありません。

GPU インスタンスは、GPU アクセラレーションが追加されている点を除き、標準 ECS インスタンスと同じユーザーエクスペリエンスを提供します。デフォルトでは、同じセキュリティグループ内の GPU インスタンスと ECS インスタンスは、内部ネットワークを介して通信できます。特別な構成は必要ありません。

GPU と CPU の違いは何ですか？

次の表は、GPU と CPU を比較したものです。

比較	GPU	CPU
演算論理装置 (ALU)	大規模な同時計算の処理に優れた多数の ALU を備えています。	少数の強力な ALU を備えています。
制御ユニット	比較的単純な制御ユニットを備えています。	複雑な制御ユニットを備えています。
キャッシュ	アクセスされたデータを保存する代わりにスレッドにサービスを提供する小さなキャッシュを備えています。	データを保存してアクセス速度を向上させ、レイテンシを短縮できる大きなキャッシュ構造を備えています。
応答メソッド	バッチ処理の前にすべてのタスクを統合します。	個々のタスクにリアルタイムで応答します。
シナリオ	計算集約型で、類似性が高く、マルチスレッドの並列高スループットコンピューティングシナリオに適しています。	高速な応答時間を必要とする、論理的に複雑なシリアルコンピューティングシナリオに適しています。

GPU インスタンスを購入した後、`nvidia-smi` コマンドで GPU カードが見つからないのはなぜですか？

原因: nvidia-smi コマンドで GPU カードが見つからない場合、GPU インスタンスに Tesla または GRID ドライバーがインストールされていないか、インストールに失敗したことが原因です。

解決策: GPU インスタンスのパフォーマンス専有型の特徴を使用するには、インスタンスタイプに適したドライバーをインストールする必要があります。ドライバーのインストール方法は次のとおりです。

GPU 仮想化インスタンスの場合は、GRID ドライバーをインストールする必要があります。詳細については、以下をご参照ください。
- GPU 仮想化インスタンスに GRID ドライバーをインストールする (Linux)
- GPU コンピューティング最適化インスタンスまたは GPU 仮想化 Windows インスタンスに GRID ドライバーをインストールする
GPU コンピューティング最適化インスタンスの場合は、Tesla または GRID ドライバーをインストールできます。詳細については、以下をご参照ください。

GPU カードの詳細を表示するにはどうすればよいですか？

GPU カードの詳細を表示する手順は、オペレーティングシステムによって異なります。詳細を表示する方法は次のとおりです。

Linux では、nvidia-smi コマンドを実行して GPU カードの詳細を表示できます。
Windows では、[デバイスマネージャー] > [ディスプレイアダプター] で GPU カードの詳細を表示できます。

説明

GPU のアイドル率、使用率、温度、仕事率などの情報を表示するには、CloudMonitor コンソールに移動します。詳細については、「GPU モニタリング」をご参照ください。

GPU 仮想化インスタンスにはどのドライバーをインストールする必要がありますか？

GPU 仮想化インスタンスには GRID ドライバーが必要です。

汎用コンピューティングまたはグラフィックスアクセラレーションのシナリオでは、GPU インスタンスの作成時に GRID ドライバーをロードするか、作成後にクラウドアシスタントを使用してインストールできます。ドライバーのインストール方法は次のとおりです。

新しいインスタンスの作成時に GRID ドライバーをロードします。詳細については、「プリインストール済みのドライバーを含むイメージから GRID ドライバーをロードする」をご参照ください。
インスタンスの作成後にクラウドアシスタントを使用して GRID ドライバーをインストールします。詳細については、以下をご参照ください。
- GPU 仮想化インスタンスに GRID ドライバーをインストールする (Linux)
- GPU コンピューティング最適化インスタンスまたは GPU 仮想化 Windows インスタンスに GRID ドライバーをインストールする

GPU 仮想化インスタンスで CUDA を 12.4 に、または NVIDIA ドライバーを 550 以降にアップグレードできますか？

これはサポートされていません。

GPU 仮想化インスタンスは、プラットフォームが提供する GRID ドライバーに依存します。ドライバーのバージョンは制限されており、NVIDIA の公式ウェブサイトからドライバーをインストールすることはできません。アップグレードするには、gn または ebm シリーズの GPU インスタンスを使用する必要があります。

GPU コンピューティング最適化インスタンスで OpenGL や Direct3D などのツールを使用してグラフィックスアクセラレーションを行うには、どのドライバーをインストールする必要がありますか？

GPU インスタンスのオペレーティングシステムに基づいてドライバーをインストールします。ドライバーのインストール方法は次のとおりです。

Linux GPU コンピューティング最適化インスタンスの場合は、Tesla ドライバーをインストールします。詳細については、以下をご参照ください。
- GPU インスタンスの作成時に Tesla ドライバーを自動的にインストールまたはロードする
- GPU コンピューティング最適化インスタンスに Tesla ドライバーを手動でインストールする (Linux)
Windows GPU コンピューティング最適化インスタンスの場合は、GRID ドライバーをインストールします。詳細については、以下をご参照ください。
- プリインストール済みのドライバーを含むイメージから GRID ドライバーをロードする
- GPU コンピューティング最適化インスタンスまたは GPU 仮想化 Windows インスタンスに GRID ドライバーをインストールする

インストール後に表示される CUDA バージョンが、GPU インスタンスの作成時に選択したバージョンと異なるのはなぜですか？

nvidia-smi コマンドによって返される CUDA バージョンは、GPU インスタンスがサポートする最高の CUDA バージョンを示します。インスタンスの作成時に選択した CUDA バージョンを表すものではありません。

Windows GPU インスタンスに GRID ドライバーをインストールした後、コンソールから VNC 接続を使用するとブラックスクリーンが表示される場合はどうすればよいですか？

原因: Windows GPU インスタンスに GRID ドライバーをインストールすると、GRID ドライバーが仮想マシン (VM) のディスプレイ出力をコントロールします。VNC は統合グラフィックスからイメージを取得できなくなります。これによりブラックスクリーンが発生しますが、これは想定される動作です。
解決策: Workbench を使用して GPU インスタンスに接続します。詳細については、「Workbench を使用して Windows インスタンスにログオンする」をご参照ください。

GRID ライセンスを取得するにはどうすればよいですか？

ライセンスを取得する方法は、オペレーティングシステムによって異なります。ライセンスを取得する方法は次のとおりです。

Windows GPU インスタンスに GRID ドライバーをインストールするには、プリインストール済みのドライバーイメージから、または手動インストールによってライセンスを取得できます。
- プリインストール済みのドライバーを含むイメージから GRID ドライバーをロードする
- GPU コンピューティング最適化インスタンスまたは GPU 仮想化 Windows インスタンスに GRID ドライバーをインストールする
Linux GPU インスタンスに GRID ドライバーをインストールするには、プリインストール済みのドライバーイメージから、またはクラウドアシスタントを使用してライセンスを取得できます。
- プリインストール済みのドライバーを含むイメージから GRID ドライバーをロードする
- GPU 仮想化インスタンスに GRID ドライバーをインストールする (Linux)

GPU ドライバー (Tesla または GRID) をスペックアップするにはどうすればよいですか？

GPU ドライバー (Tesla または GRID) を直接アップグレードすることはできません。まず古いバージョンをアンインストールし、システムを再起動してから、新しいバージョンをインストールする必要があります。詳細については、「Tesla または GRID ドライバーをアップグレードする」をご参照ください。

重要

オフピーク時にドライバーをアップグレードしてください。アップグレードする前に、スナップショットを作成してディスクデータをバックアップし、データの損失を防ぎます。詳細については、「スナップショットの作成」をご参照ください。

NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) をインストールした後に、システムが `kernel NULL pointer dereference` エラーでクラッシュした場合はどうすればよいですか？

症状: 一部のインスタンスタイプでは、NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) をインストールしたとき、またはインストール後に nvidia-smi コマンドを実行したときに、システムが kernel NULL pointer dereference エラーを報告します。次のログはエラーを示しています。

エラーログ

[  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
[  305.164303] #PF: supervisor read access in kernel mode
[  305.164447] #PF: error_code(0x0000) - not-present page
[  305.164626] PGD 0 P4D 0
[  305.164724] Oops: 0000 [#1] SMP NOPTI
[  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
[  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
[  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.169052] PKRU: 55555554
[  305.169157] Call Trace:
[  305.169252]  ? __die+0x20/0x70
[  305.169372]  ? no_context+0x5f/0x260
[  305.169504]  ? exc_page_fault+0x68/0x130
[  305.169651]  ? asm_exc_page_fault+0x1e/0x30
[  305.169815]  ? pci_read_config_dword+0x5/0x40
[  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
[  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
[  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
[  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
[  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
[  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
[  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
[  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
[  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
[  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
[  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
[  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
[  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
[  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
[  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
[  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
[  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
[  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
[  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
[  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.176527]  ? kthread+0x118/0x140
[  305.176869]  ? __kthread_bind_mask+0x60/0x60
[  305.177230]  ? ret_from_fork+0x1f/0x30
[  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
[  305.180787] CR2: 00000000000000c4
[  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
[  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.188361] PKRU: 55555554
[  305.188719] Kernel panic - not syncing: Fatal exception
[  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)

解決策: ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) の使用は避けてください。バージョン 570.133.20 (Linux) または 572.83 (Windows) 以降を使用することをお勧めします。

GPU インスタンスのリソース使用量 (vCPU、ネットワークトラフィック、帯域幅、ディスク) を表示するにはどうすればよいですか？

次のいずれかのメソッドを使用して、vCPU 使用率、メモリ、平均システム負荷、内部帯域幅、パブリック帯域幅、ネットワーク接続、ディスク使用率と読み取り、GPU 使用率、GPU メモリ使用量、GPU 仕事率などのモニタリングデータを表示できます。

製品コンソール
- ECS コンソール: このコンソールは、vCPU 使用率、ネットワークトラフィック、ディスク I/O、GPU モニタリングなどのメトリックを提供します。詳細については、「ECS コンソールでモニタリング情報を表示する」をご参照ください。
- CloudMonitor コンソール: このコンソールは、インフラ監視、オペレーティングシステムモニタリング、GPU モニタリング、ネットワークモニタリング、プロセスモニタリング、ディスクモニタリングなど、より高精度な監視を提供します。詳細については、「ホストモニタリング」をご参照ください。
費用とコストセンター
[使用状況の詳細] ページで、次のフィールドでフィルターをかけて ECS インスタンスのトラフィック使用量を表示できます: [期間]、[製品名]、[課金項目名]、[測定仕様]、および [測定粒度]。[CSV のエクスポート] をクリックして、インスタンスのリソース使用量情報をエクスポートします。詳細については、「請求詳細」をご参照ください。
説明
使用状況の詳細のデータは、生のリソース使用量です。請求詳細の課金対象の使用量データとは異なります。クエリ結果は参照用であり、照合には使用できません。

cGPU サービスをインストールするにはどうすればよいですか？

ACK の Docker ランタイム環境を通じて cGPU サービスをインストールして使用できます。これは、ID 検証を完了したエンタープライズユーザーと個人ユーザーの両方に推奨されるメソッドです。詳細については、「共有 GPU スケジューリングコンポーネントの管理」をご参照ください。

ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、nvidia-smi コマンドが "No devices were found" エラーを返す

症状: 一部のインスタンスタイプでは、ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、インストール後に nvidia-smi コマンドが No devices were found エラーを返します。
原因: すべての GPU モデルが NVIDIA Proprietary ドライバーと互換性があるわけではありません。
推奨されるカーネルモジュールタイプの構成:
- Blackwell アーキテクチャの GPU の場合: オープンソースドライバー (MIT/GPL を選択) を使用する必要があります。
- Turing、Ampere、Ada Lovelace、および Hopper アーキテクチャの GPU の場合: オープンソースドライバー (MIT/GPL を選択) を使用することを推奨します。
- Maxwell、Pascal、および Volta アーキテクチャの GPU の場合: NVIDIA Proprietary のみを選択できます。

Linux で GPU を使用しているときに GPU の初期化に失敗した場合 (RmInitAdapter failed! など)、どうすればよいですか？

症状: GPU デバイスがオフラインになり、システムが GPU カードを検出できなくなります。たとえば、Linux で GPU を使用しているときに、GPU の初期化失敗エラーが報告されます。sh nvidia-bug-report.sh コマンドを実行すると、生成されたログに次の図に示すように RmInitAdapter failed エラーメッセージが表示されます。
原因: GPU システムプロセッサ (GSP) コンポーネントが異常な状態にある可能性があります。これにより、デバイスがオフラインになり、システムが GPU カードを検出できなくなります。
解決策: コンソールからインスタンスを再起動します。この操作により、完全な GPU リセットが実行され、通常は問題が解決します。問題が解決しない場合は、詳細なトラブルシューティングについて、「GPU 使用時の XID 119/XID 120 エラーによる GPU デバイスの損失」をご参照ください。GSP 機能を無効にすることをお勧めします。

GPU アクセラレーション インスタンスは Android エミュレータをサポートしていますか？