すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ノード診断

最終更新日:Oct 29, 2024

Container Service for Kubernetes (ACK) は、一般的なノードの問題の診断に役立つノード診断機能を提供します。 このトピックでは、ノードの診断項目について説明し、これらの問題を修正する方法について提案します。

ACKは、専門家の経験に基づいて診断システムを開発し、大量のデータに基づいてAI支援診断モデルをトレーニングします。 ノード診断機能は、問題の根本原因の特定に役立つエキスパートモードとAIモードモードを提供します。 ノード診断は、診断項目と根本原因で構成されます。

  • 診断項目: ノード、ノードコンポーネント、クラスターコンポーネント、Elastic Compute Service (ECS) コントローラーマネージャー、およびGPU高速化ノードを診断します。
  • 根本原因: 問題の根本原因を特定し、問題を修正する方法についての提案を提供します。 ノード診断機能は、クラスターとノードに関する情報を収集し、異常を特定して、詳細な診断を実行します。
重要 ノード診断機能を使用すると、ACKはクラスター内の各ノードでデータ収集プログラムを実行し、診断結果を収集します。 収集される情報には、システムのバージョン、ワークロードのステータス、Docker、およびkubelet、およびシステムログの主要なエラー情報が含まれます。 データ収集プログラムは、ビジネス情報や機密データを収集しません。

シナリオ

次の表に、ノード診断とAI支援診断のシナリオを示します。

カテゴリシナリオ
ノード診断Node NotReady: ネットワークの準備ができていません。
ノードNotReady: プロセスID (PID) のクォータが不十分です。
ノードNotReady: メモリが不足しています。
ノードNotReady: ディスク容量が不足しています。
ノードNotReady: ランタイム例外が発生します。
ノードNotReady: ハートビートが検出されません。
inodeのクォータが不十分です。
PIDのクォータが不十分です。
ノードの時刻が正しくありません。
ノードのファイルシステムは読み取り専用です。
デッドロックはノードカーネルで発生します。
AI支援診断ノードの状態が異常です。
ECSインスタンスのステータスが異常です。
ノードのkubeletでエラーが発生します。
ランタイム例外はノードで発生します。
ディスク容量が不足しています。
ノードのCPU使用率が高いです。

手順

クラスター診断機能は、クラスターとノードに関する情報を収集し、異常を特定して、詳細な診断を実行します。 エキスパートモードとAIモードは、問題の根本原因を特定するために使用されます。 診断結果は、異常識別、データ収集、診断項目チェック、および根本原因分析のステップを通じて生成される。

Node diagnostics
  • 異常識別: ノードステータス、ポッドステータス、クラスターイベントストリームなどの基本データを収集し、収集したデータに基づいて異常を分析します。
  • データ収集: 異常識別の結果に基づいて、コンテキスト関連データを収集して診断します。 たとえば、ACKはKubernetesのノード情報、ECS情報、Dockerプロセスステータス、およびkubeletプロセスステータスを収集します。
  • 診断項目チェック: 収集されたデータに基づいて、主要な指標が正常かどうかを確認します。 たとえば、ノード診断項目には、DockerプロセスステータスとECSステータスが含まれます。 ノード診断は、複数のカテゴリに分類される。 ACKは、異なるカテゴリの診断項目を列挙し、各診断項目の説明を提供する。
  • 根本原因分析: 収集したデータと診断項目のチェック結果に基づいて、課題の根本原因を分析します。

診断結果

診断結果は、根本原因分析の結果および診断項目チェックの結果を含む。 根本原因分析の結果には、検出された異常根本原因修正の提案が含まれます。 診断項目チェックの結果は、各診断項目のチェック結果を含む。 診断項目チェックは、根本原因分析では特定できない原因を特定するために使用されます。

診断アイテム

カテゴリ説明
ノードノードステータス、ネットワークステータス、カーネルログ、カーネルプロセス、サービスの可用性など、一般的なノードの問題を診断します。
NodeComponentネットワークおよびボリュームコンポーネントを含む主要ノードコンポーネントのステータスを診断します。
ClusterComponentAPIサービスの可用性、DNSの可用性、NATゲートウェイのステータスなど、一般的なクラスターの問題を診断します。
ECSControllerManagerECSインスタンスのステータス、ネットワーク接続、オペレーティングシステム、ディスクI/Oなど、一般的なECSインスタンスの問題を診断します。
GPUNodeNVIDIAモジュールのステータスやドライバー設定など、GPUで高速化されたノードの問題を診断します。

ノード

診断アイテム説明解決策
Kubernetes APIサーバーへの接続エラーノードがクラスターのKubernetes APIサーバーに接続できるかどうかを確認します。 クラスターの設定を確認します。 詳細については、「ACKクラスターのトラブルシューティング」をご参照ください。
AUFSマウントハングAUFSマウントがハングするかどうかを確認します。 AUFSマウントハングが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
BufferIOErrorエラーノードカーネルでBufferIOErrorエラーが発生したかどうかを確認します。 ノードカーネルでBufferIOErrorエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
Cgroupリークノードでcgroupリークが発生したかどうかをチェックします。 Cgroupリークは、監視データ収集を中断し、コンテナの起動失敗につながる可能性があります。 ノードにログインし、cgroupディレクトリを削除します。 問題が解決しない場合は、チケットを起票します。
異常なchronydプロセスステータスノードのchronydプロセスが異常状態であるかどうかをチェックします。 ノード上のchronydプロセスが異常状態にある場合、システムクロック同期が影響を受ける可能性があります。 ノード上のchronydプロセスが異常状態にある場合、システムクロック同期が影響を受ける可能性があります。 systemctl restart chronydコマンドを実行して、chronydプロセスを再起動します。
containerdによって引っ张るイメージcontainerdランタイムがイメージを期待どおりにプルできるかどうかを確認します。 ノードネットワークとイメージの設定を確認します。
Containerdステータスcontainerdランタイムのステータスをチェックします。 containerdランタイムが異常状態の場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
CoreDNSポッドの可用性ノードがCoreDNSポッドのIPアドレスにアクセスできるかどうかを確認します。 ノードがCoreDNSポッドのIPアドレスにアクセスできるかどうかを確認します。 詳細については、「」をご参照ください。DNSクエリの負荷がCoreDNSポッド間でバランスが取れていない場合はどうすればよいですか?.
画像ステータス画像が破損しているかどうかを確認します。 画像が破損している場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
画像のOverlay2ステータスイメージ内のoverlay2ファイルシステムが破損しているかどうかを確認します。 イメージ内のoverlay2ファイルシステムが破損している場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
システム時刻システム時刻が正しいかどうかを確認します。 なし。
Dockerコンテナの起動Dockerコンテナの起動に失敗したかどうかを確認します。 Dockerコンテナの起動に失敗した場合、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
Dockerイメージのプルノードが期待どおりにDockerイメージをプルできるかどうかを確認します。 ノードネットワークとイメージの設定を確認します。
DockerステータスDockerのステータスを確認します。 Dockerが異常状態の場合、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
Dockerの起動時間Dockerdの起動時間を確認します。 なし。
DockerハングエラーノードでDockerハングエラーが発生したかどうかをチェックします。 systemctl restart dockerコマンドを実行してDockerを再起動します。
ECSインスタンスの存在ECSインスタンスが存在するかどうかを確認します。 ECSインスタンスのステータスを確認します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。
ECSインスタンスのステータスECSインスタンスのステータスを確認します。 ECSインスタンスのステータスを確認します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。
Ext4FsErrorエラーノードカーネルでExt4FsErrorエラーが発生したかどうかを確認します。 ノードカーネルでExt4FsErrorエラーが発生し、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
読み取り専用ノードファイルシステムほとんどの場合、ノードファイルシステムはディスク障害のために読み取り専用になります。 読み取り専用ノードのファイルシステムにデータを書き込むことはできず、ビジネスに影響を与える可能性があります。 fsckコマンドを使用してノードファイルシステムを修復し、ノードを再起動します。
ハードウェア時間ハードウェア時間とシステム時間の整合性を確認します。 ハードウェア時間とシステム時間の差が2分を超えると、コンポーネントエラーが発生する可能性があります。 hwclock -- systohcコマンドを実行して、システム時刻をハードウェアクロックに同期させます。
DNSノードでドメイン名を解決できるかどうかを確認します。 ノードでドメイン名を解決できるかどうかを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。
Kernel oopsエラーノードカーネルにoopsエラーが存在するかどうかを確認します。 ノードカーネルでoopsエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
カーネルバージョンカーネルバージョンが古いかどうかを確認します。 古いカーネルバージョンはシステム障害につながる可能性があります。 ノードカーネルを更新します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。
DNSの可用性ノードがkube-dns ServiceのクラスターIPアドレスにアクセスして、クラスターが提供するDNSサービスを使用できるかどうかを確認します。 CoreDNSポッドのステータスとログを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。
Kubeletステータスkubeletのステータスをチェックします。 kubeletログをチェックします。 詳細については、「ACKクラスターのトラブルシューティング」をご参照ください。
Kubeletの起動時間kubeletの起動時間をチェックします。 なし。
CPU使用率ノードのCPU使用率が高すぎるかどうかをチェックします。 なし。
メモリ使用率ノードのメモリ使用率が高すぎるかどうかをチェックします。 なし。
メモリ断片化ノードにメモリフラグメントが存在するかどうかを確認します。 ノードにメモリフラグメントが存在する場合は、ノードにログインし、echo 3 > /proc/sys/vm/drop_cachesを実行してキャッシュを削除します。 問題が解決しない場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
スワップメモリノードのスワップメモリが有効かどうかを確認します。 スワップメモリを有効にできません。 ノードにログインし、スワップメモリを無効にします。
ネットワークデバイスドライバのロードネットワークデバイスドライバーの読み込みを確認します。 ネットワークデバイスドライバのロード中にエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
ノードのCPU使用率が高すぎる先週のノードのCPU使用率を確認します。 ノードのCPU使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを求めて競合します。 これはCPU利用を増加させ、サービス中断をもたらし得る。 サービスの中断を回避するには、リソース要求と制限を適切な値に設定して、ノードで過度に多数のポッドを実行しないようにします。
プライベートノードIPの存在プライベートノードIPアドレスが存在するかどうかを確認します。 プライベートノードのIPアドレスが存在しない場合は、ノードを削除し、ノードを再度クラスターに追加します。 ノードを削除するときにECSインスタンスをリリースしないでください。 クラスターからノードを削除する方法の詳細については、「ノードの削除」をご参照ください。 ノードをクラスターに追加する方法の詳細については、「既存のECSインスタンスをACKクラスターに追加する」をご参照ください。
ノードのメモリ使用率が高すぎる先週のノードのメモリ使用率を確認します。 ノードのメモリ使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを求めて競合します。 これにより、メモリの利用率が増加し、メモリ不足 (OOM) エラーが発生し、サービスの中断が発生する可能性があります。 サービスの中断を回避するには、リソース要求と制限を適切な値に設定して、ノードで過度に多数のポッドを実行しないようにします。
ノードの状態ノードが準備完了状態かどうかをチェックします。 ノードを再起動します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。
ノードのスケジュール可能性ノードがスケジュール不可能かどうかを確認します。 ノードがスケジューリング不可能な場合は、ノードのスケジューリング設定を確認します。 詳細については、「ノードのスケジューリング可能性の設定」をご参照ください。
OOMエラーノードでOOMエラーが発生したかどうかを確認します。 ノードでOOMエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
ランタイムチェックノードのランタイムがクラスターのランタイムと同じかどうかを確認します。 詳細については、「」をご参照ください。クラスターのコンテナランタイムをcontainerdからDockerに変更できますか?.
古いOSバージョンノードで使用されているOSバージョンに既知のバグがあるかどうか、およびノードで使用されているOSバージョンが古く、安定性の問題があるかどうかを確認します。 上記の問題により、Dockerおよびcontainerdコンポーネントが誤動作する可能性があります。 OSのバージョンを更新します。
インターネットアクセスノードがインターネットにアクセスできるかどうかを確認します。 クラスターに対してSNATが有効になっているかどうかを確認します。 詳細については、「既存のACKクラスターによるインターネットへのアクセスの有効化」をご参照ください。
RCUStallErrorエラーノードカーネルでRCUStallErrorエラーが発生したかどうかを確認します。 ノードカーネルでRCUStallErrorエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
OSのバージョンノードが使用しているOSのバージョンを確認します。 古いOSバージョンがノードで使用されている場合、クラスターは通常どおり実行されない可能性があります。 なし。
Runcプロセスリークノード上でruncプロセスリークが発生した場合、ノードは定期的にNotReady状態に入ることができる。 runcプロセスリークが発生した場合は, リークしたruncプロセスを確認し, 手動で終了してください。
SoftLockupErrorエラーノードカーネルでSoftLockupErrorエラーが発生したかどうかを確認します。 ノードカーネルでSoftLockupErrorエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
Systemdがハングするノードでsystemdハングが発生したかどうかを確認します。 ノードでsystemdがハングする場合は、ノードにログインし、systemctl daemon-reexecコマンドを実行してsystemdを再起動します。 問題が解決しない場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
古いsystemdバージョンノードが使用するsystemdバージョンに既知のバグがあるかどうかを確認します。 古いsystemdバージョンには安定性の問題があり、Dockerおよびcontainerdコンポーネントが誤動作する可能性があります。 systemdバージョンを更新します。 詳細については、「systemd」をご参照ください。
ハングプロセスノードにハングしたプロセスが存在するかどうかを確認します。 ノードにハングしたプロセスが存在する場合、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。
unregister_netdeviceエラーノードカーネルでunregister_netdeviceエラーが発生したかどうかを確認します。 ノードカーネルでunregister_netdeviceエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。

NodeComponent

診断アイテム説明解決策
CNIコンポーネントのステータスContainer Network Interface (CNI) プラグインが期待どおりに実行されるかどうかを確認します。 クラスターで使用されているネットワークコンポーネントのステータスを確認します。 詳細については、「ネットワーク管理に関するFAQ」をご参照ください。
CSIコンポーネントのステータスContainer Storage Interface (CNI) プラグインが期待どおりに実行されるかどうかを確認します。 クラスターで使用されているボリュームコンポーネントのステータスを確認します。 詳細については、「CSIに関するFAQ」をご参照ください。

ClusterComponent

診断アイテム説明解決策
aliyun-acr-credential-helperバージョンクラスターで使用されているaliyun-acr-credential-helperバージョンが古いかどうかを確認します。 クラスターで使用されているaliyun-acr-credential-helperのバージョンが古い場合は、aliyun-acr-credential-helperを更新します。 詳細については、「aliyun-acr-credential-helperコンポーネントを使用して、シークレットを使用せずにイメージをプルする」をご参照ください。
APIサービスの可用性クラスターのAPIサービスが利用可能かどうかを確認します。 kubectl get apiserviceコマンドを実行して、クラスターのAPIサービスの可用性を確認します。 APIサービスが利用できない場合は、kubectl describe apiserviceコマンドを実行して、APIサービスに関する情報を表示し、原因を特定します。
使用可能なポッドCIDRブロックが不十分Flannelがインストールされているクラスターで使用可能なポッドCIDRブロックの数が5未満かどうかを確認します。 クラスター内の各ノードは、ポッドCIDRブロックにアタッチされます。 すべてのポッドCIDRブロックが使用されている場合、クラスターに追加する新しいノードは期待どおりに機能しません。 チケットを起票します。
CoreDNSエンドポイントCoreDNSエンドポイントの数を確認します。 CoreDNSポッドのステータスとログを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。
CoreDNSクラスターのIPアドレスクラスタIPアドレスがCoreDNSポッドに割り当てられているかどうかを確認します。 クラスタIPアドレスがCoreDNSポッドに割り当てられていない場合、サービスが中断される可能性があります。 CoreDNSポッドのステータスとログを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。
NATゲートウェイのステータスクラスターが使用しているNATゲートウェイのステータスを確認します。 NAT Gatewayコンソールにログインして、料金滞納によりNAT gatewayがロックされているかどうかを確認します。
NATゲートウェイでの同時接続ドロップの割合が過度に高いNATゲートウェイで同時接続がドロップされる割合が高いかどうかを確認します。 料金が高い場合は、NAT gatewayをアップグレードします。 詳細については、「標準インターネットNATゲートウェイの拡張インターネットNATゲートウェイへのアップグレードに関するFAQ」をご参照ください。

ECSControllerManager

診断アイテム説明解決策
ECSインスタンスコンポーネントに関連する料金滞納アカウント内の料金滞納により、ECSインスタンスのディスクまたはネットワーク帯域幅が利用できないかどうかを確認します。 アカウント内の料金滞納によりECSインスタンスのディスクまたはネットワーク帯域幅が利用できない場合は、アカウントを補充してください。 詳細については、「更新の概要」をご参照ください。
ECSインスタンスに関連する料金滞納従量課金ECSインスタンスが料金滞納のために停止されているかどうかを確認します。 支払いの滞納により従量課金ECSインスタンスが停止された場合は、まずアカウントを補充してからインスタンスを再起動する必要があります。 詳細については、「更新の概要」をご参照ください。
ECSインスタンスのNICステータスECSインスタンスのNICが期待どおりに動作するかどうかを確認します。 ECSインスタンスのNICが期待どおりに機能しない場合は、インスタンスを再起動します。
ECSインスタンスの起動ステータスインスタンスでブート操作を正常に実行できるかどうかを確認します。 インスタンスで通常どおりにブート操作を実行できない場合は、別のインスタンスを作成する必要があります。
ECSインスタンスのバックエンド管理システムの状態ECSインスタンスのバックエンド管理システムが正常に機能するかどうかを確認します。 ECSインスタンスのバックエンド管理システムが期待どおりに機能しない場合は、インスタンスを再起動します。
ECSインスタンスCPUのステータスECSインスタンスの基になるレイヤーでCPU競合またはCPUバインドの失敗が発生しているかどうかを確認します。 CPU競合が存在する場合、インスタンスはCPUの取得に失敗するか、その他の問題が発生する可能性があります。 インスタンスを再起動します。
ECSインスタンスのCPUのロックを分割するECSインスタンスのCPUで分割ロックが発生しているかどうかを確認します。 ECSインスタンスのCPUで分割ロックが発生します。 詳細については、「分割ロックの検出と処理」をご参照ください。
ECSインスタンスのDDos軽減のステータスインスタンスのパブリックIPアドレスがDDoS攻撃を受けているかどうかを確認します。 ECSインスタンスのIPアドレスがDDoS攻撃を受けている場合は、他のanti-DDoSサービスを購入してください。 詳細については、「Alibaba Cloud Anti-DDoSソリューションの比較」をご参照ください。
クラウドディスクの限られた読み取り /書き込み機能クラウドディスクの読み取り /書き込み機能が制限されているかどうかを確認します。 ディスクの最大読み取りおよび書き込みIOPSに達した場合、ディスクの読み取りおよび書き込み操作は制限されます。 ディスクメトリクスを表示する方法の詳細については、「ブロックストレージパフォーマンス」をご参照ください。
ECSインスタンスディスクのロードインスタンスの起動時にクラウドディスクをECSインスタンスにアタッチできるかどうかを確認します。 クラウドディスクのインスタンスへの接続に失敗したため、インスタンスの起動に失敗した場合。 インスタンスを停止してから、インスタンスを再起動します。
ECSインスタンスの有効期限インスタンスのサブスクリプションが期限切れかどうかを確認します。 ECSインスタンスの有効期限が切れている場合は、インスタンスを更新します。 詳細については、「更新の概要」をご参照ください。
ECSインスタンスのOSクラッシュECSインスタンスでOSクラッシュが発生したかどうかを確認します。 過去48時間以内にECSインスタンスでOSクラッシュが発生した場合は、システムログをトラブルシューティングして原因を特定します。 詳細については、「システムログとスクリーンショットの表示」をご参照ください。
ECSインスタンスホストのステータスECSインスタンスがデプロイされている物理サーバーで障害が発生したかどうかを確認します。 ECSインスタンスがデプロイされている物理サーバーで障害が発生した場合、インスタンスが異常状態になり、インスタンスのパフォーマンスが低下する可能性があります。 インスタンスを再起動します。
ECSインスタンスイメージのロードシステムがインスタンスを初期化するときに、ECSインスタンスがイメージをロードできるかどうかを確認します。 システムとイメージに関連する問題のため、ECSインスタンスはイメージをロードできませんでした。 インスタンスを再起動します。
ECSインスタンスディスクでI/OがハングするECSインスタンスのシステムディスクでI/Oハングが発生しているかどうかを確認します。 ECSインスタンスのシステムディスクでI/Oハングが発生した場合は、ディスクメトリックを確認します。 詳細については、「クラウドディスクのモニタリングデータの表示」をご参照ください。 Alibaba Cloud Linux 2でI/Oハングのトラブルシューティングを行う方法については、「ファイルシステムとブロックレイヤーのI/Oハングの検出」をご参照ください。
ECSインスタンスの帯域幅の上限ECSインスタンスの合計帯域幅が、インスタンスタイプで許可されている最大帯域幅に達しているかどうかを確認します。 ECSインスタンスの合計帯域幅がインスタンスタイプで許可されている最大帯域幅に達した場合、より高い帯域幅機能を提供するインスタンスタイプにインスタンスをアップグレードします。 詳細については、「インスタンス設定の変更の概要」をご参照ください。
ECSインスタンスのバースト帯域幅の上限インスタンスのバースト帯域幅が、インスタンスタイプで許可されているバースト帯域幅の上限を超えているかどうかを確認します。 インスタンスのバースト帯域幅が、そのインスタンスタイプで許可されているバースト帯域幅の上限を超える場合は、より高い帯域幅を提供するインスタンスタイプにインスタンスをアップグレードします。 詳細については、「インスタンス設定の変更の概要」をご参照ください。
ECSインスタンスNICのロード。ECSインスタンスのNICをロードできるかどうかを確認します。 NICをロードできない場合、インスタンスのネットワーク接続が影響を受けます。 インスタンスを再起動します。
ECSインスタンスでのNICセッションの確立ECSインスタンスのNICに対してセッションを確立できるかどうかを確認します。 NICに対してセッションを確立できない場合、またはNICがサポートするセッションの最大数に達した場合、インスタンスのネットワーク接続またはスループットが影響を受けます。 インスタンスを再起動します。
ECSインスタンスの主な操作インスタンスに対して最近実行した操作が成功したかどうかを確認します。 これらの操作には、インスタンスの起動と停止、およびインスタンスの設定のアップグレードが含まれます。 インスタンスに対して最近実行した操作が失敗した場合は、操作を再度実行してください。
ECSインスタンスNICのパケット損失ECSインスタンスのNICでインバウンドパケット損失またはアウトバウンドパケット損失が発生しているかどうかを確認します。 ECSインスタンスのNICでインバウンドパケット損失またはアウトバウンドパケット損失が発生した場合、インスタンスを再起動します。
ECSインスタンスのパフォーマンス低下ソフトウェアまたはハードウェアの問題により、インスタンスのパフォーマンスが一時的に低下しているかどうかを確認します。 インスタンスのパフォーマンスが低下した場合は、パフォーマンスが低下した時刻が表示されます。 インスタンスの履歴イベントまたはシステムログを表示して、パフォーマンス低下の原因を特定できます。 詳細については、「システムイベントの履歴の表示」をご参照ください。
ECSインスタンスのパフォーマンスの侵害ECSインスタンスのパフォーマンスが低下しているかどうかを確認します。 利用可能なCPUクレジットが不十分なため、ECSインスタンスはベースラインパフォーマンスのみを提供できます。
ECSインスタンスのディスクサイズ変更ECSインスタンスのディスクのサイズが変更されているかどうかを確認します。 ディスクのサイズ変更後、オペレーティングシステムはファイルシステムのサイズを変更できません。 サイズ変更後にディスクを使用できない場合は、ディスクのサイズを再度変更してください。
ECSインスタンスのリソース申請ECSインスタンスに必要なCPUやメモリリソースなどの物理リソースが十分かどうかを確認します。 ECSインスタンスに必要な物理リソースが不足している場合、インスタンスを起動できません。 数分待ってからインスタンスを再起動します。 別のリージョンでECSインスタンスを作成することもできます。
ECSインスタンスのOSステータスECSインスタンスのOSでカーネルパニック、OOMエラー、または内部障害が発生しているかどうかを確認します。 これらの障害は、インスタンスまたはインスタンスのOSのユーザープログラムの不適切な設定が原因である可能性があります。 インスタンスを再起動します。
ECSインスタンスの仮想化ステータスインスタンスの基盤となる仮想化レイヤーのコアサービスに例外が存在するかどうかを確認します。 例外が存在する場合、インスタンスは応答しないか、予期せず中断される可能性があります。 インスタンスを再起動します。

GPUNode

診断アイテム説明解決策
コンテナランタイムGPUアクセラレーションノードで使用されるコンテナランタイムが有効かどうかを確認します。 ノードのDockerまたはcontainerdランタイムのステータスを確認します。 ACKは、Dockerまたはcontainerdランタイムを使用するGPU高速化ノードのみをサポートします。
NVIDIA-Container-RuntimeバージョンGPUアクセラレーションノードで使用されているNVIDIA-Container-Runtimeのバージョンを確認します。 NVIDIA-Container-Runtimeがインストールされていないか、インストールされているNVIDIA-Container-Runtimeのバージョンに問題があります。 以下の手順を実行します。
  1. GPU高速化ノードで使用されるNVIDIA-Container-Runtimeバージョンが、クラスターのKubernetesバージョンと一致するかどうかを確認します。 詳細については、「Kubernetesバージョンのリリースノート」をご参照ください。
  2. NVIDIA-Container-RuntimeバージョンがクラスターのKubernetesバージョンと一致する場合、チケットを起票します。 診断データを収集する方法の詳細については、「GPUアクセラレーションノードから診断データを収集する」をご参照ください。
cGPUモジュールのステータスGPU高速化ノードのcGPUモジュールが期待どおりに実行されるかどうかを確認します。 ノードのGPU共有が有効になっているかどうかを確認します。 以下の手順を実行します。
  1. cGPUコンポーネントがインストールされているかどうかを確認します。 詳細については、「GPU共有コンポーネントの設定」をご参照ください。
  2. cGPUコンポーネントがインストールされている場合は、GPUアクセラレーションノードに関する診断データを収集し、チケットを起票します。 診断データを収集する方法の詳細については、「GPUアクセラレーションノードから診断データを収集する」をご参照ください。
コンテナランタイムの設定GPUアクセラレーションノードで使用されるコンテナランタイムが正しく設定されているかどうかを確認します。 GPUアクセラレーションノードで使用されるコンテナランタイムが正しく設定されていません。 コンテナーランタイム設定でnvidia-container-runtimeフィールドが指定されているかどうかを確認します。
  • Dockerランタイムの場合、/etc/docker/daemon.jsonファイルを確認します。
  • containerdランタイムの場合、/etc/containerd/config.tomlファイルを確認します。
NVIDIA-Container-RuntimeステータスNVIDIA-Container-RuntimeがGPUアクセラレーションノードで期待どおりに実行されるかどうかを確認します。 NVIDIA-Container-Runtimeでエラーが発生します。 GPU高速化ノードに関する診断データを収集し、チケットを起票します。 診断データを収集する方法の詳細については、「GPUアクセラレーションノードから診断データを収集する」をご参照ください。
NVIDIAモジュールのステータスGPUアクセラレーションノードでNVIDIAモジュールが期待どおりに実行されるかどうかを確認します。 GPU高速化ノードのNVIDIAモジュールでエラーが発生します。 以下の手順を実行します。
  1. GPU高速化ノードを診断します。 詳細は、「よくある質問」をご参照ください。
  2. GPU高速化ノードに関する診断データを収集し、チケットを起票します。 診断データを収集する方法の詳細については、「GPUアクセラレーションノードから診断データを収集する」をご参照ください。