クラスター診断を使用してクラスターの問題を特定する - Container Service for Kubernetes

IT 運用のための人工知能 (AIOps) は、ノード、Pod、サービス、Ingress、メモリ、ネットワーク、AI プロファイリングのワンクリック診断を提供します。この機能は、クラスター内の問題を特定するのに役立ちます。このトピックでは、ACK クラスターでクラスター診断機能を使用する方法について説明します。

前提条件

ACK マネージドクラスターが作成されていること。詳細については、「ACK マネージドクラスターの作成」をご参照ください。
Kubernetes クラスターのステータスが [実行中] であること。
説明
Container Service for Kubernetes コンソールにログインします。[クラスター] ページで、[クラスターの状態] 列を確認し、クラスターのステータスが [実行中] であることを確認します。

診断機能

AIOps は、次の表で説明する診断機能を提供します。

診断項目	説明
ノード診断	NotReady 状態の Kubernetes ノードなど、ノード関連の問題を診断します。
Pod 診断	Pod の起動失敗や頻繁な Pod の再起動など、Pod の異常なステータスに関連する問題を診断します。
サービス診断	サービスの設定、リソースクォータ、異常なアクティビティなど、サービス関連の問題を診断します。
Ingress 診断	トラフィック設定など、Ingress 関連の問題を診断します。
メモリ診断	メモリリーク、cgroup リーク、メモリ不足 (OOM) エラーなど、ノードのメモリ問題を診断します。診断結果は、視覚化されたチャートで全体的なメモリ使用量を示します。
ネットワーク診断	Pod 間の接続性の問題、クラスターとインターネット間の接続性の問題、インターネットと LoadBalancer 間の接続性の問題など、一般的なネットワーク問題を診断します。
AI プロファイリング	オンライン GPU コンテナーから、CPU 呼び出し、Python プロセス、システムコール、CUDA カーネル関数などのリアルタイムデータを収集します。視覚化されたチャートインターフェイスでデータを分析できます。

診断の構成

重要

クラスター診断機能を使用すると、データ収集プログラムがクラスターノード上で実行され、チェック結果を収集します。収集される情報には、システムバージョン、負荷、Docker と kubelet の実行ステータス、およびシステムログからの重大なエラーメッセージが含まれます。データ収集プログラムは、お客様のビジネス情報や機密データを収集しません。

ノード、Pod、サービス、Ingress の診断を構成する手順は似ています。次のセクションでは、ノード診断を例として、この機能の構成方法を説明します。

ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、対象のクラスターの名前をクリックします。左側のナビゲーションウィンドウで、[O&M と診断] > [診断] を選択します。
[診断] ページで、[ノード診断] をクリックします。表示される [ノード診断] ページで、左上隅にある [診断] をクリックします。
[ノードの選択] パネルで、[ノード名] を選択し、注意事項を読み、[上記規約を読み、同意しました] を選択してから、[診断の開始] をクリックします。
ページで診断の進捗状況を確認できます。診断が完了すると、ページに診断結果と診断項目の一覧が表示されます。その後、結果を確認して問題の原因を特定し、解決できます。

診断結果の表示

[診断] ページで、リストから診断レポートを見つけ、[操作] 列の [詳細] をクリックして、詳細な診断結果を表示します。

説明

診断項目はクラスターの構成によって異なる場合があります。診断ページに表示される実際の診断項目が優先されます。

診断項目	チェック項目ステータス	説明
ノード診断	正常: 操作は不要です。警告: 確認が必要です。クラスターの異常を引き起こす状況に対処してください。異常: クラスターが動作しなくなるのを防ぐため、できるだけ早く対処してください。不明: チェックが完了しなかったか、結果が不明です。	ノード診断には、[Node]、[NodeComponent]、[ClusterComponent]、[ECSControllerManager]、および [GPUNode] のチェック項目が含まれます。ノードの異常の原因は、ノードステータス、ノードコンポーネントのステータス、クラスターコンポーネントのステータス、および ECS ステータスに基づいて判断されます。診断詳細ページでは、ノード診断結果、修復の提案、および特定のチェック項目のリストを表示できます。チェック項目の右側にあるアイコンにマウスポインターを合わせると、その説明が表示されます。異常または警告ステータスのチェック項目がある場合、それらは [要処理] タブに表示されます。チェック項目が異常なステータスの場合、その項目の [ステータス] 列にある [詳細の表示] にカーソルを合わせると表示されるヒントで異常を確認できます。
Pod 診断		Pod 診断には、[Pod]、[ClusterComponent]、[ノード]、[NodeComponent]、および [ECSControllerManager] のチェック項目が含まれます。Pod の異常の原因は、Pod のステータス、クラスターコンポーネントのステータス、ノードのステータス、ノードコンポーネントのステータス、および ECS のステータスに基づいて判断されます。診断詳細ページでは、Pod の診断結果、修復の提案、および特定のチェック項目の一覧を表示できます。チェック項目の右側にあるアイコンにマウスポインターを合わせると、その説明が表示されます。異常または警告ステータスのチェック項目がある場合、それらは [要処理] タブに表示されます。チェック項目が異常なステータスの場合、その項目の [ステータス] 列にある [詳細の表示] にカーソルを合わせると表示されるヒントで異常を確認できます。
サービス診断		サービス診断には、[サービス] と [ResourceQuotas] のチェック項目が含まれます。サービスの異常の原因は、CLB の課金タイプ、証明書、クォータ、異常なイベントなどの項目をチェックすることによって判断されます。チェック項目の右側にあるアイコンにマウスポインターを合わせると、その説明が表示されます。異常または警告ステータスのチェック項目がある場合、それらは [要処理] タブに表示されます。チェック項目が異常なステータスの場合、その項目の [ステータス] 列にある [詳細の表示] にカーソルを合わせると表示されるヒントで異常を確認できます。
Ingress 診断		Ingress 診断には、[Ingress]、[Addon]、および [SLB] のチェック項目が含まれます。Ingress の異常の原因は、Ingress のステータス、Ingress プラグインのステータス、および SLB のステータスに基づいて判断されます。チェック項目の右側にあるアイコンにマウスポインターを合わせると、その説明が表示されます。異常または警告ステータスのチェック項目がある場合、それらは [要処理] タブに表示されます。チェック項目が異常なステータスの場合、その項目の [ステータス] 列にある [詳細の表示] にカーソルを合わせると表示されるヒントで異常を確認できます。
メモリ診断	なし。	診断詳細ページでは、[メモリ概要]、[メモリ分析]、および [OOM 分析] を表示でき、これらにはメモリリークのステータス、メモリ使用率、各プロセスが占有するメモリなどの情報が含まれます。
ネットワーク診断	正常: 操作は不要です。異常: できるだけ早く対処してください。	[診断結果] ページで、ネットワーク診断結果を表示できます。[アクセスマップ] エリアには、診断のアクセスパスの完全なマップがレンダリングされます。異常なノードは、正常なノードとは異なる色でハイライト表示されます。