すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:GPU高速化ノードから診断データを収集する

最終更新日:Oct 23, 2024

このトピックでは、GPU高速化ノードから診断データを収集する方法について説明します。

ポッド異常

GPUリソースを要求するポッドがGPUアクセラレーションノードで通常どおりに実行できない場合は、次の手順を実行して診断データを収集します。

  1. 次のコマンドを実行して、ポッドが実行されているノードを照会します。

    この例では、失敗したポッドはtest-podという名前で、test-namespace名前空間に属します。

    kubectl get pod test-pod -n test-namespace -o wide
  2. GPUアクセラレーションノードにログインし、次のコマンドを実行して診断スクリプトをダウンロードして実行します。

    curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod

    期待される出力:

    Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
  3. チケットを起票し、カレントディレクトリにあるdiagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzおよびdiagnose-gpu.logファイルをContainer Service for Kubernetes (ACK) テクニカルチームに起票して分析します。

GPU高速化ノードの異常

GPU高速化ノードが正常に実行されない場合、またはGPU高速化ノードのランタイム環境でエラーが発生した場合は、次の手順を実行して診断データを収集します。

  1. GPUアクセラレーションノードにログインし、次のコマンドを実行して診断スクリプトをダウンロードして実行します。

    curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash

    期待される出力:

    Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
  2. チケットを起票し、現在のディレクトリにあるdiagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzファイルを分析のためにACK技術チームに提出します。