Container Service for Kubernetes (ACK) は、一般的なノードの問題の診断に役立つノード診断機能を提供します。 このトピックでは、ノードの診断項目について説明し、これらの問題を修正する方法について提案します。
ACKは、専門家の経験に基づいて診断システムを開発し、大量のデータに基づいてAI支援診断モデルをトレーニングします。 ノード診断機能は、問題の根本原因の特定に役立つエキスパートモードとAIモードモードを提供します。 ノード診断は、診断項目と根本原因で構成されます。
- 診断項目: ノード、ノードコンポーネント、クラスターコンポーネント、Elastic Compute Service (ECS) コントローラーマネージャー、およびGPU高速化ノードを診断します。
- 根本原因: 問題の根本原因を特定し、問題を修正する方法についての提案を提供します。 ノード診断機能は、クラスターとノードに関する情報を収集し、異常を特定して、詳細な診断を実行します。
重要 ノード診断機能を使用すると、ACKはクラスター内の各ノードでデータ収集プログラムを実行し、診断結果を収集します。 収集される情報には、システムのバージョン、ワークロードのステータス、Docker、およびkubelet、およびシステムログの主要なエラー情報が含まれます。 データ収集プログラムは、ビジネス情報や機密データを収集しません。
シナリオ
次の表に、ノード診断とAI支援診断のシナリオを示します。
カテゴリ | シナリオ |
ノード診断 | Node NotReady: ネットワークの準備ができていません。 |
ノードNotReady: プロセスID (PID) のクォータが不十分です。 | |
ノードNotReady: メモリが不足しています。 | |
ノードNotReady: ディスク容量が不足しています。 | |
ノードNotReady: ランタイム例外が発生します。 | |
ノードNotReady: ハートビートが検出されません。 | |
inodeのクォータが不十分です。 | |
PIDのクォータが不十分です。 | |
ノードの時刻が正しくありません。 | |
ノードのファイルシステムは読み取り専用です。 | |
デッドロックはノードカーネルで発生します。 | |
AI支援診断 | ノードの状態が異常です。 |
ECSインスタンスのステータスが異常です。 | |
ノードのkubeletでエラーが発生します。 | |
ランタイム例外はノードで発生します。 | |
ディスク容量が不足しています。 | |
ノードのCPU使用率が高いです。 |
手順
クラスター診断機能は、クラスターとノードに関する情報を収集し、異常を特定して、詳細な診断を実行します。 エキスパートモードとAIモードは、問題の根本原因を特定するために使用されます。 診断結果は、異常識別、データ収集、診断項目チェック、および根本原因分析のステップを通じて生成される。
- 異常識別: ノードステータス、ポッドステータス、クラスターイベントストリームなどの基本データを収集し、収集したデータに基づいて異常を分析します。
- データ収集: 異常識別の結果に基づいて、コンテキスト関連データを収集して診断します。 たとえば、ACKはKubernetesのノード情報、ECS情報、Dockerプロセスステータス、およびkubeletプロセスステータスを収集します。
- 診断項目チェック: 収集されたデータに基づいて、主要な指標が正常かどうかを確認します。 たとえば、ノード診断項目には、DockerプロセスステータスとECSステータスが含まれます。 ノード診断は、複数のカテゴリに分類される。 ACKは、異なるカテゴリの診断項目を列挙し、各診断項目の説明を提供する。
- 根本原因分析: 収集したデータと診断項目のチェック結果に基づいて、課題の根本原因を分析します。
診断結果
診断結果は、根本原因分析の結果および診断項目チェックの結果を含む。 根本原因分析の結果には、検出された異常、根本原因、修正の提案が含まれます。 診断項目チェックの結果は、各診断項目のチェック結果を含む。 診断項目チェックは、根本原因分析では特定できない原因を特定するために使用されます。
診断アイテム
カテゴリ | 説明 |
ノード | ノードステータス、ネットワークステータス、カーネルログ、カーネルプロセス、サービスの可用性など、一般的なノードの問題を診断します。 |
NodeComponent | ネットワークおよびボリュームコンポーネントを含む主要ノードコンポーネントのステータスを診断します。 |
ClusterComponent | APIサービスの可用性、DNSの可用性、NATゲートウェイのステータスなど、一般的なクラスターの問題を診断します。 |
ECSControllerManager | ECSインスタンスのステータス、ネットワーク接続、オペレーティングシステム、ディスクI/Oなど、一般的なECSインスタンスの問題を診断します。 |
GPUNode | NVIDIAモジュールのステータスやドライバー設定など、GPUで高速化されたノードの問題を診断します。 |
ノード
診断アイテム | 説明 | 解決策 |
Kubernetes APIサーバーへの接続エラー | ノードがクラスターのKubernetes APIサーバーに接続できるかどうかを確認します。 | クラスターの設定を確認します。 詳細については、「ACKクラスターのトラブルシューティング」をご参照ください。 |
AUFSマウントハング | AUFSマウントがハングするかどうかを確認します。 | AUFSマウントハングが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
BufferIOErrorエラー | ノードカーネルでBufferIOErrorエラーが発生したかどうかを確認します。 | ノードカーネルでBufferIOErrorエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
Cgroupリーク | ノードでcgroupリークが発生したかどうかをチェックします。 | Cgroupリークは、監視データ収集を中断し、コンテナの起動失敗につながる可能性があります。 ノードにログインし、cgroupディレクトリを削除します。 問題が解決しない場合は、チケットを起票します。 |
異常なchronydプロセスステータス | ノードのchronydプロセスが異常状態であるかどうかをチェックします。 ノード上のchronydプロセスが異常状態にある場合、システムクロック同期が影響を受ける可能性があります。 | ノード上のchronydプロセスが異常状態にある場合、システムクロック同期が影響を受ける可能性があります。 systemctl restart chronyd コマンドを実行して、chronydプロセスを再起動します。 |
containerdによって引っ张るイメージ | containerdランタイムがイメージを期待どおりにプルできるかどうかを確認します。 | ノードネットワークとイメージの設定を確認します。 |
Containerdステータス | containerdランタイムのステータスをチェックします。 | containerdランタイムが異常状態の場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
CoreDNSポッドの可用性 | ノードがCoreDNSポッドのIPアドレスにアクセスできるかどうかを確認します。 | ノードがCoreDNSポッドのIPアドレスにアクセスできるかどうかを確認します。 詳細については、「」をご参照ください。DNSクエリの負荷がCoreDNSポッド間でバランスが取れていない場合はどうすればよいですか?. |
画像ステータス | 画像が破損しているかどうかを確認します。 | 画像が破損している場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
画像のOverlay2ステータス | イメージ内のoverlay2ファイルシステムが破損しているかどうかを確認します。 | イメージ内のoverlay2ファイルシステムが破損している場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
システム時刻 | システム時刻が正しいかどうかを確認します。 | なし。 |
Dockerコンテナの起動 | Dockerコンテナの起動に失敗したかどうかを確認します。 | Dockerコンテナの起動に失敗した場合、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
Dockerイメージのプル | ノードが期待どおりにDockerイメージをプルできるかどうかを確認します。 | ノードネットワークとイメージの設定を確認します。 |
Dockerステータス | Dockerのステータスを確認します。 | Dockerが異常状態の場合、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
Dockerの起動時間 | Dockerdの起動時間を確認します。 | なし。 |
Dockerハングエラー | ノードでDockerハングエラーが発生したかどうかをチェックします。 | systemctl restart docker コマンドを実行してDockerを再起動します。 |
ECSインスタンスの存在 | ECSインスタンスが存在するかどうかを確認します。 | ECSインスタンスのステータスを確認します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。 |
ECSインスタンスのステータス | ECSインスタンスのステータスを確認します。 | ECSインスタンスのステータスを確認します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。 |
Ext4FsErrorエラー | ノードカーネルでExt4FsErrorエラーが発生したかどうかを確認します。 | ノードカーネルでExt4FsErrorエラーが発生し、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
読み取り専用ノードファイルシステム | ほとんどの場合、ノードファイルシステムはディスク障害のために読み取り専用になります。 読み取り専用ノードのファイルシステムにデータを書き込むことはできず、ビジネスに影響を与える可能性があります。 | fsckコマンドを使用してノードファイルシステムを修復し、ノードを再起動します。 |
ハードウェア時間 | ハードウェア時間とシステム時間の整合性を確認します。 ハードウェア時間とシステム時間の差が2分を超えると、コンポーネントエラーが発生する可能性があります。 | hwclock -- systohc コマンドを実行して、システム時刻をハードウェアクロックに同期させます。 |
DNS | ノードでドメイン名を解決できるかどうかを確認します。 | ノードでドメイン名を解決できるかどうかを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。 |
Kernel oopsエラー | ノードカーネルにoopsエラーが存在するかどうかを確認します。 | ノードカーネルでoopsエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
カーネルバージョン | カーネルバージョンが古いかどうかを確認します。 古いカーネルバージョンはシステム障害につながる可能性があります。 | ノードカーネルを更新します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。 |
DNSの可用性 | ノードがkube-dns ServiceのクラスターIPアドレスにアクセスして、クラスターが提供するDNSサービスを使用できるかどうかを確認します。 | CoreDNSポッドのステータスとログを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。 |
Kubeletステータス | kubeletのステータスをチェックします。 | kubeletログをチェックします。 詳細については、「ACKクラスターのトラブルシューティング」をご参照ください。 |
Kubeletの起動時間 | kubeletの起動時間をチェックします。 | なし。 |
CPU使用率 | ノードのCPU使用率が高すぎるかどうかをチェックします。 | なし。 |
メモリ使用率 | ノードのメモリ使用率が高すぎるかどうかをチェックします。 | なし。 |
メモリ断片化 | ノードにメモリフラグメントが存在するかどうかを確認します。 | ノードにメモリフラグメントが存在する場合は、ノードにログインし、echo 3 > /proc/sys/vm/drop_caches を実行してキャッシュを削除します。 問題が解決しない場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
スワップメモリ | ノードのスワップメモリが有効かどうかを確認します。 | スワップメモリを有効にできません。 ノードにログインし、スワップメモリを無効にします。 |
ネットワークデバイスドライバのロード | ネットワークデバイスドライバーの読み込みを確認します。 | ネットワークデバイスドライバのロード中にエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
ノードのCPU使用率が高すぎる | 先週のノードのCPU使用率を確認します。 ノードのCPU使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを求めて競合します。 これはCPU利用を増加させ、サービス中断をもたらし得る。 | サービスの中断を回避するには、リソース要求と制限を適切な値に設定して、ノードで過度に多数のポッドを実行しないようにします。 |
プライベートノードIPの存在 | プライベートノードIPアドレスが存在するかどうかを確認します。 | プライベートノードのIPアドレスが存在しない場合は、ノードを削除し、ノードを再度クラスターに追加します。 ノードを削除するときにECSインスタンスをリリースしないでください。 クラスターからノードを削除する方法の詳細については、「ノードの削除」をご参照ください。 ノードをクラスターに追加する方法の詳細については、「既存のECSインスタンスをACKクラスターに追加する」をご参照ください。 |
ノードのメモリ使用率が高すぎる | 先週のノードのメモリ使用率を確認します。 ノードのメモリ使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを求めて競合します。 これにより、メモリの利用率が増加し、メモリ不足 (OOM) エラーが発生し、サービスの中断が発生する可能性があります。 | サービスの中断を回避するには、リソース要求と制限を適切な値に設定して、ノードで過度に多数のポッドを実行しないようにします。 |
ノードの状態 | ノードが準備完了状態かどうかをチェックします。 | ノードを再起動します。 詳細については、「ノードとノードプールに関するFAQ」をご参照ください。 |
ノードのスケジュール可能性 | ノードがスケジュール不可能かどうかを確認します。 | ノードがスケジューリング不可能な場合は、ノードのスケジューリング設定を確認します。 詳細については、「ノードのスケジューリング可能性の設定」をご参照ください。 |
OOMエラー | ノードでOOMエラーが発生したかどうかを確認します。 | ノードでOOMエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
ランタイムチェック | ノードのランタイムがクラスターのランタイムと同じかどうかを確認します。 | 詳細については、「」をご参照ください。クラスターのコンテナランタイムをcontainerdからDockerに変更できますか?. |
古いOSバージョン | ノードで使用されているOSバージョンに既知のバグがあるかどうか、およびノードで使用されているOSバージョンが古く、安定性の問題があるかどうかを確認します。 上記の問題により、Dockerおよびcontainerdコンポーネントが誤動作する可能性があります。 | OSのバージョンを更新します。 |
インターネットアクセス | ノードがインターネットにアクセスできるかどうかを確認します。 | クラスターに対してSNATが有効になっているかどうかを確認します。 詳細については、「既存のACKクラスターによるインターネットへのアクセスの有効化」をご参照ください。 |
RCUStallErrorエラー | ノードカーネルでRCUStallErrorエラーが発生したかどうかを確認します。 | ノードカーネルでRCUStallErrorエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
OSのバージョン | ノードが使用しているOSのバージョンを確認します。 古いOSバージョンがノードで使用されている場合、クラスターは通常どおり実行されない可能性があります。 | なし。 |
Runcプロセスリーク | ノード上でruncプロセスリークが発生した場合、ノードは定期的にNotReady状態に入ることができる。 | runcプロセスリークが発生した場合は, リークしたruncプロセスを確認し, 手動で終了してください。 |
SoftLockupErrorエラー | ノードカーネルでSoftLockupErrorエラーが発生したかどうかを確認します。 | ノードカーネルでSoftLockupErrorエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
Systemdがハングする | ノードでsystemdハングが発生したかどうかを確認します。 | ノードでsystemdがハングする場合は、ノードにログインし、systemctl daemon-reexec コマンドを実行してsystemdを再起動します。 問題が解決しない場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
古いsystemdバージョン | ノードが使用するsystemdバージョンに既知のバグがあるかどうかを確認します。 古いsystemdバージョンには安定性の問題があり、Dockerおよびcontainerdコンポーネントが誤動作する可能性があります。 | systemdバージョンを更新します。 詳細については、「systemd」をご参照ください。 |
ハングプロセス | ノードにハングしたプロセスが存在するかどうかを確認します。 | ノードにハングしたプロセスが存在する場合、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
unregister_netdeviceエラー | ノードカーネルでunregister_netdeviceエラーが発生したかどうかを確認します。 | ノードカーネルでunregister_netdeviceエラーが発生した場合は、ノードログを収集し、チケットを起票します。 ノードログの収集方法の詳細については、「ノードの診断ログの収集」をご参照ください。 |
NodeComponent
診断アイテム | 説明 | 解決策 |
CNIコンポーネントのステータス | Container Network Interface (CNI) プラグインが期待どおりに実行されるかどうかを確認します。 | クラスターで使用されているネットワークコンポーネントのステータスを確認します。 詳細については、「ネットワーク管理に関するFAQ」をご参照ください。 |
CSIコンポーネントのステータス | Container Storage Interface (CNI) プラグインが期待どおりに実行されるかどうかを確認します。 | クラスターで使用されているボリュームコンポーネントのステータスを確認します。 詳細については、「CSIに関するFAQ」をご参照ください。 |
ClusterComponent
診断アイテム | 説明 | 解決策 |
aliyun-acr-credential-helperバージョン | クラスターで使用されているaliyun-acr-credential-helperバージョンが古いかどうかを確認します。 | クラスターで使用されているaliyun-acr-credential-helperのバージョンが古い場合は、aliyun-acr-credential-helperを更新します。 詳細については、「aliyun-acr-credential-helperコンポーネントを使用して、シークレットを使用せずにイメージをプルする」をご参照ください。 |
APIサービスの可用性 | クラスターのAPIサービスが利用可能かどうかを確認します。 | kubectl get apiservice コマンドを実行して、クラスターのAPIサービスの可用性を確認します。 APIサービスが利用できない場合は、kubectl describe apiservice コマンドを実行して、APIサービスに関する情報を表示し、原因を特定します。 |
使用可能なポッドCIDRブロックが不十分 | Flannelがインストールされているクラスターで使用可能なポッドCIDRブロックの数が5未満かどうかを確認します。 クラスター内の各ノードは、ポッドCIDRブロックにアタッチされます。 すべてのポッドCIDRブロックが使用されている場合、クラスターに追加する新しいノードは期待どおりに機能しません。 | チケットを起票します。 |
CoreDNSエンドポイント | CoreDNSエンドポイントの数を確認します。 | CoreDNSポッドのステータスとログを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。 |
CoreDNSクラスターのIPアドレス | クラスタIPアドレスがCoreDNSポッドに割り当てられているかどうかを確認します。 クラスタIPアドレスがCoreDNSポッドに割り当てられていない場合、サービスが中断される可能性があります。 | CoreDNSポッドのステータスとログを確認します。 詳細については、「DNSトラブルシューティング」をご参照ください。 |
NATゲートウェイのステータス | クラスターが使用しているNATゲートウェイのステータスを確認します。 | NAT Gatewayコンソールにログインして、料金滞納によりNAT gatewayがロックされているかどうかを確認します。 |
NATゲートウェイでの同時接続ドロップの割合が過度に高い | NATゲートウェイで同時接続がドロップされる割合が高いかどうかを確認します。 | 料金が高い場合は、NAT gatewayをアップグレードします。 詳細については、「標準インターネットNATゲートウェイの拡張インターネットNATゲートウェイへのアップグレードに関するFAQ」をご参照ください。 |
ECSControllerManager
診断アイテム | 説明 | 解決策 |
ECSインスタンスコンポーネントに関連する料金滞納 | アカウント内の料金滞納により、ECSインスタンスのディスクまたはネットワーク帯域幅が利用できないかどうかを確認します。 | アカウント内の料金滞納によりECSインスタンスのディスクまたはネットワーク帯域幅が利用できない場合は、アカウントを補充してください。 詳細については、「更新の概要」をご参照ください。 |
ECSインスタンスに関連する料金滞納 | 従量課金ECSインスタンスが料金滞納のために停止されているかどうかを確認します。 | 支払いの滞納により従量課金ECSインスタンスが停止された場合は、まずアカウントを補充してからインスタンスを再起動する必要があります。 詳細については、「更新の概要」をご参照ください。 |
ECSインスタンスのNICステータス | ECSインスタンスのNICが期待どおりに動作するかどうかを確認します。 | ECSインスタンスのNICが期待どおりに機能しない場合は、インスタンスを再起動します。 |
ECSインスタンスの起動ステータス | インスタンスでブート操作を正常に実行できるかどうかを確認します。 | インスタンスで通常どおりにブート操作を実行できない場合は、別のインスタンスを作成する必要があります。 |
ECSインスタンスのバックエンド管理システムの状態 | ECSインスタンスのバックエンド管理システムが正常に機能するかどうかを確認します。 | ECSインスタンスのバックエンド管理システムが期待どおりに機能しない場合は、インスタンスを再起動します。 |
ECSインスタンスCPUのステータス | ECSインスタンスの基になるレイヤーでCPU競合またはCPUバインドの失敗が発生しているかどうかを確認します。 | CPU競合が存在する場合、インスタンスはCPUの取得に失敗するか、その他の問題が発生する可能性があります。 インスタンスを再起動します。 |
ECSインスタンスのCPUのロックを分割する | ECSインスタンスのCPUで分割ロックが発生しているかどうかを確認します。 | ECSインスタンスのCPUで分割ロックが発生します。 詳細については、「分割ロックの検出と処理」をご参照ください。 |
ECSインスタンスのDDos軽減のステータス | インスタンスのパブリックIPアドレスがDDoS攻撃を受けているかどうかを確認します。 | ECSインスタンスのIPアドレスがDDoS攻撃を受けている場合は、他のanti-DDoSサービスを購入してください。 詳細については、「Alibaba Cloud Anti-DDoSソリューションの比較」をご参照ください。 |
クラウドディスクの限られた読み取り /書き込み機能 | クラウドディスクの読み取り /書き込み機能が制限されているかどうかを確認します。 | ディスクの最大読み取りおよび書き込みIOPSに達した場合、ディスクの読み取りおよび書き込み操作は制限されます。 ディスクメトリクスを表示する方法の詳細については、「ブロックストレージパフォーマンス」をご参照ください。 |
ECSインスタンスディスクのロード | インスタンスの起動時にクラウドディスクをECSインスタンスにアタッチできるかどうかを確認します。 | クラウドディスクのインスタンスへの接続に失敗したため、インスタンスの起動に失敗した場合。 インスタンスを停止してから、インスタンスを再起動します。 |
ECSインスタンスの有効期限 | インスタンスのサブスクリプションが期限切れかどうかを確認します。 | ECSインスタンスの有効期限が切れている場合は、インスタンスを更新します。 詳細については、「更新の概要」をご参照ください。 |
ECSインスタンスのOSクラッシュ | ECSインスタンスでOSクラッシュが発生したかどうかを確認します。 | 過去48時間以内にECSインスタンスでOSクラッシュが発生した場合は、システムログをトラブルシューティングして原因を特定します。 詳細については、「システムログとスクリーンショットの表示」をご参照ください。 |
ECSインスタンスホストのステータス | ECSインスタンスがデプロイされている物理サーバーで障害が発生したかどうかを確認します。 | ECSインスタンスがデプロイされている物理サーバーで障害が発生した場合、インスタンスが異常状態になり、インスタンスのパフォーマンスが低下する可能性があります。 インスタンスを再起動します。 |
ECSインスタンスイメージのロード | システムがインスタンスを初期化するときに、ECSインスタンスがイメージをロードできるかどうかを確認します。 | システムとイメージに関連する問題のため、ECSインスタンスはイメージをロードできませんでした。 インスタンスを再起動します。 |
ECSインスタンスディスクでI/Oがハングする | ECSインスタンスのシステムディスクでI/Oハングが発生しているかどうかを確認します。 | ECSインスタンスのシステムディスクでI/Oハングが発生した場合は、ディスクメトリックを確認します。 詳細については、「クラウドディスクのモニタリングデータの表示」をご参照ください。 Alibaba Cloud Linux 2でI/Oハングのトラブルシューティングを行う方法については、「ファイルシステムとブロックレイヤーのI/Oハングの検出」をご参照ください。 |
ECSインスタンスの帯域幅の上限 | ECSインスタンスの合計帯域幅が、インスタンスタイプで許可されている最大帯域幅に達しているかどうかを確認します。 | ECSインスタンスの合計帯域幅がインスタンスタイプで許可されている最大帯域幅に達した場合、より高い帯域幅機能を提供するインスタンスタイプにインスタンスをアップグレードします。 詳細については、「インスタンス設定の変更の概要」をご参照ください。 |
ECSインスタンスのバースト帯域幅の上限 | インスタンスのバースト帯域幅が、インスタンスタイプで許可されているバースト帯域幅の上限を超えているかどうかを確認します。 | インスタンスのバースト帯域幅が、そのインスタンスタイプで許可されているバースト帯域幅の上限を超える場合は、より高い帯域幅を提供するインスタンスタイプにインスタンスをアップグレードします。 詳細については、「インスタンス設定の変更の概要」をご参照ください。 |
ECSインスタンスNICのロード。 | ECSインスタンスのNICをロードできるかどうかを確認します。 | NICをロードできない場合、インスタンスのネットワーク接続が影響を受けます。 インスタンスを再起動します。 |
ECSインスタンスでのNICセッションの確立 | ECSインスタンスのNICに対してセッションを確立できるかどうかを確認します。 | NICに対してセッションを確立できない場合、またはNICがサポートするセッションの最大数に達した場合、インスタンスのネットワーク接続またはスループットが影響を受けます。 インスタンスを再起動します。 |
ECSインスタンスの主な操作 | インスタンスに対して最近実行した操作が成功したかどうかを確認します。 これらの操作には、インスタンスの起動と停止、およびインスタンスの設定のアップグレードが含まれます。 | インスタンスに対して最近実行した操作が失敗した場合は、操作を再度実行してください。 |
ECSインスタンスNICのパケット損失 | ECSインスタンスのNICでインバウンドパケット損失またはアウトバウンドパケット損失が発生しているかどうかを確認します。 | ECSインスタンスのNICでインバウンドパケット損失またはアウトバウンドパケット損失が発生した場合、インスタンスを再起動します。 |
ECSインスタンスのパフォーマンス低下 | ソフトウェアまたはハードウェアの問題により、インスタンスのパフォーマンスが一時的に低下しているかどうかを確認します。 | インスタンスのパフォーマンスが低下した場合は、パフォーマンスが低下した時刻が表示されます。 インスタンスの履歴イベントまたはシステムログを表示して、パフォーマンス低下の原因を特定できます。 詳細については、「システムイベントの履歴の表示」をご参照ください。 |
ECSインスタンスのパフォーマンスの侵害 | ECSインスタンスのパフォーマンスが低下しているかどうかを確認します。 | 利用可能なCPUクレジットが不十分なため、ECSインスタンスはベースラインパフォーマンスのみを提供できます。 |
ECSインスタンスのディスクサイズ変更 | ECSインスタンスのディスクのサイズが変更されているかどうかを確認します。 | ディスクのサイズ変更後、オペレーティングシステムはファイルシステムのサイズを変更できません。 サイズ変更後にディスクを使用できない場合は、ディスクのサイズを再度変更してください。 |
ECSインスタンスのリソース申請 | ECSインスタンスに必要なCPUやメモリリソースなどの物理リソースが十分かどうかを確認します。 | ECSインスタンスに必要な物理リソースが不足している場合、インスタンスを起動できません。 数分待ってからインスタンスを再起動します。 別のリージョンでECSインスタンスを作成することもできます。 |
ECSインスタンスのOSステータス | ECSインスタンスのOSでカーネルパニック、OOMエラー、または内部障害が発生しているかどうかを確認します。 | これらの障害は、インスタンスまたはインスタンスのOSのユーザープログラムの不適切な設定が原因である可能性があります。 インスタンスを再起動します。 |
ECSインスタンスの仮想化ステータス | インスタンスの基盤となる仮想化レイヤーのコアサービスに例外が存在するかどうかを確認します。 | 例外が存在する場合、インスタンスは応答しないか、予期せず中断される可能性があります。 インスタンスを再起動します。 |
GPUNode
診断アイテム | 説明 | 解決策 |
コンテナランタイム | GPUアクセラレーションノードで使用されるコンテナランタイムが有効かどうかを確認します。 | ノードのDockerまたはcontainerdランタイムのステータスを確認します。 ACKは、Dockerまたはcontainerdランタイムを使用するGPU高速化ノードのみをサポートします。 |
NVIDIA-Container-Runtimeバージョン | GPUアクセラレーションノードで使用されているNVIDIA-Container-Runtimeのバージョンを確認します。 | NVIDIA-Container-Runtimeがインストールされていないか、インストールされているNVIDIA-Container-Runtimeのバージョンに問題があります。 以下の手順を実行します。
|
cGPUモジュールのステータス | GPU高速化ノードのcGPUモジュールが期待どおりに実行されるかどうかを確認します。 | ノードのGPU共有が有効になっているかどうかを確認します。 以下の手順を実行します。
|
コンテナランタイムの設定 | GPUアクセラレーションノードで使用されるコンテナランタイムが正しく設定されているかどうかを確認します。 | GPUアクセラレーションノードで使用されるコンテナランタイムが正しく設定されていません。 コンテナーランタイム設定でnvidia-container-runtimeフィールドが指定されているかどうかを確認します。
|
NVIDIA-Container-Runtimeステータス | NVIDIA-Container-RuntimeがGPUアクセラレーションノードで期待どおりに実行されるかどうかを確認します。 | NVIDIA-Container-Runtimeでエラーが発生します。 GPU高速化ノードに関する診断データを収集し、チケットを起票します。 診断データを収集する方法の詳細については、「GPUアクセラレーションノードから診断データを収集する」をご参照ください。 |
NVIDIAモジュールのステータス | GPUアクセラレーションノードでNVIDIAモジュールが期待どおりに実行されるかどうかを確認します。 | GPU高速化ノードのNVIDIAモジュールでエラーが発生します。 以下の手順を実行します。
|