すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:クラスター検査とソリューションでサポートされている項目の確認

最終更新日:Oct 30, 2024

Container Intelligence Serviceは、定期検査機能を提供します。 検査ルールを設定して、クラスターを定期的に検査し、潜在的なリスクを特定できます。 このトピックでは、一般的な問題のクラスター検査機能によって生成されるアラートと、これらの問題の解決策について説明します。

クラスタ検査でサポートされているチェック項目

説明
  • クラスター検査機能の詳細については、「クラスター検査機能の操作」をご参照ください。

  • チェック項目は、クラスターの構成によって異なる場合があります。 検査報告書のチェック項目が優先されます。

チェックアイテム

アラート

リソースの割り当て

ResourceQuotas

VPCルートエントリのクォータ不足

ECSインスタンスに関連付けることができるSLBインスタンスのクォータが不十分

SLBバックエンドサーバーの割り当て不足

SLBリスナーのクォータ不足

SLBインスタンスのクォータ不足

リソース透かし

ResourceLevel

過剰なSLB帯域幅使用量

過剰なSLB接続数

非常に高いレートの新しいSLB接続 /秒

過度に高いSLB QPS

使用可能なポッドCIDRブロックの数が不十分

過度に高いCPU使用率のノード

過度に高いメモリ使用率のノード

アイドル状態のvSwitch IPアドレスの数が不十分

Ingressコントローラーの1秒あたりの新規SLB接続の割合が非常に高い

イングレスコントローラの過度に高いSLB QPS

コントロールプレーンのアイドル状態のvSwitch IPアドレスの数が不十分

バージョンと証明書

バージョンと証明書

古いKubernetesバージョンのクラスター

古いCoreDNSバージョン

古いノードsystemdバージョン

古いノードOSバージョン

古いクラスターコンポーネントのバージョン

クラスターリスク

ClusterRisk

Dockerハングエラーのノード

ノードがサポートするポッドの最大数が正しくありません

CoreDNS ConfigMap設定のエラー

CoreDNSデプロイメントエラー

CoreDNSがインストールされているノードの高可用性の問題

DNSサービスに使用できるバックエンドDNSサーバーがありません

DNSサービスの異常なClusterIP

クラスターの異常なNATゲートウェイのステータス

NATゲートウェイが同時セッションの最大数を超えているため、クラスター内のパケット損失率が過度に高くなります

NodeLocal DNSCacheのDNSConfigインジェクションの自動無効化

APIサーバーに関連付けられたSLBインスタンスのアクセス制御設定のエラー

APIサーバーに関連付けられているSLBインスタンスのバックエンドサーバーの異常状態

APIサーバーに関連付けられているSLBインスタンスのポート6443でリッスンするリスナーの構成のエラー

APIサーバーに関連付けられているSLBインスタンスが存在しません

APIサーバーに関連付けられているSLBインスタンスの異常状態

IngressコントローラのSLBヘルスチェックの失敗

低割合のIngressポッド

Ingressコントローラポッドのエラーログ

NGINX Ingressでキャプチャグループを指定しない書き換え対象アノテーションの使用

NGINX Ingressesの不適切なカナリアリリースルール

NGINX Ingressでのアノテーションの不適切な使用

非推奨コンポーネントの使用

Kubernetes APIサーバーへの接続エラー

ノードのポッドCIDRブロックとVPCルートテーブルに関連する問題

ノードファイルシステムの読み取り専用ステータスに関する問題

ノードのkubeletのバージョンに関する問題

ノードに指定されたセキュリティグループのアウトバウンドルールに関する問題

ノードに指定されたセキュリティグループのインバウンドルールに関する問題

ノードにアクセスできない

1つのSLBポートが複数のサービスで共有

VPCルートエントリのクォータが不十分

アラートの説明: クラスター仮想プライベートクラウド (VPC) のルートテーブルに追加できるルートエントリの数が5未満です。 Flannelがインストールされているクラスターでは、各ノードが1つのVPCルートエントリを占有します。 VPCルートエントリのクォータが使い果たされた場合、クラスターにノードを追加することはできません。 Terwayがインストールされているクラスターは、VPCルートエントリを使用しません。

解決策: デフォルトでは、VPCのルートテーブルに最大200のルートエントリを追加できます。 クォータを増やすには、Quota Centerコンソールにログインしてアプリケーションを送信でアプリケーションを送信します。 クォータ制限の詳細については、「クォータ」をご参照ください。

ECSインスタンスに関連付けることができるSLBインスタンスのクォータが不十分

アラートの説明: 各ECS (Elastic Compute Service) インスタンスに関連付けることができるバックエンドサーバーグループの最大数を確認します。 ECSインスタンスに関連付けることができるServer Load Balancer (SLB) インスタンスの数は限られています。 LoadBalancerサービスに接続されているポッドの場合、ポッドがデプロイされているECSインスタンスは、LoadBalancerサービスのSLBインスタンスに関連付けられます。 クォータが使い果たされた場合、デプロイしてLoadBalancerサービスに関連付ける新しいポッドは、期待どおりにリクエストを処理できません。

解決策: デフォルトでは、最大50のSLBサーバーグループにECSインスタンスを追加できます。 クォータを増やすには、Quota Centerコンソールにログインしてアプリケーションを送信でアプリケーションを送信します。 クォータ制限の詳細については、「クォータ」をご参照ください。 負荷分散の設定に関する考慮事項の詳細については、「LoadBalancerサービスの設定に関する考慮事項」をご参照ください。

SLBバックエンドサーバーのクォータが不十分

アラートの説明: SLBインスタンスに関連付けることができるバックエンドサーバーグループの最大数を確認します。 SLBインスタンスに関連付けることができるECSインスタンスの数は限られています。 LoadBalancerサービスが多数のポッドに対応しており、ポッドが複数のECSインスタンスに分散されており、SLBインスタンスに関連付けることができるECSインスタンスの最大数を超えている場合、ECSインスタンスをSLBインスタンスに関連付けることはできません。

解決策: デフォルトでは、最大200台のバックエンドサーバーをSLBインスタンスに関連付けることができます。 クォータを増やすには、Quota Centerコンソールにログインしてアプリケーションを送信でアプリケーションを送信します。 クォータ制限の詳細については、「クォータ」をご参照ください。 負荷分散の設定に関する考慮事項の詳細については、「LoadBalancerサービスの設定に関する考慮事項」をご参照ください。

SLBリスナーのクォータが不十分

アラートの説明: SLBインスタンスに追加できるリスナーの最大数を確認します。 SLBインスタンスに追加できるリスナーの数は限られています。 LoadBalancerサービスは特定のポートでリッスンします。 各ポートはSLBリスナーに対応しています。 LoadBalancerサービスがリッスンするポートの数がクォータを超えた場合、リスナーによって監視されていないポートは期待どおりのサービスを提供できません。

解決策: デフォルトでは、SLBインスタンスに最大50個のリスナーを追加できます。 クォータを増やすには、Quota Centerコンソールにログインしてアプリケーションを送信でアプリケーションを送信します。 クォータ制限の詳細については、「クォータ」をご参照ください。 負荷分散の設定に関する考慮事項の詳細については、「LoadBalancerサービスの設定に関する考慮事項」をご参照ください。

SLBインスタンスのクォータ不足

アラートの説明: 作成できるSLBインスタンスの数が5つ未満かどうかを確認します。 SLBインスタンスは、LoadBalancerサービスごとに作成されます。 SLBインスタンスクォータが使い果たされると、新しく作成されたLoadBalancer Servicesは通常どおり機能しません。

解決策: デフォルトでは、各Alibaba Cloudアカウント内に最大60のSLBインスタンスを持つことができます。 クォータを増やすには、クォータセンターコンソールでアプリケーションを送信します。 負荷分散の設定に関する考慮事項の詳細については、「LoadBalancerサービスの設定に関する考慮事項」をご参照ください。

過剰なSLB帯域幅使用量

アラートの説明: 過去3日間のアウトバウンド帯域幅使用量のピーク値が帯域幅制限の80% を超えているかどうかを確認します。 SLBインスタンスの帯域幅リソースが使い果たされた場合、SLBインスタンスはパケットをドロップする可能性があります。 これにより、ネットワークのジッターや応答遅延が増加します。

解決策: SLBインスタンスの帯域幅使用率が高すぎる場合は、SLBインスタンスをアップグレードします。 詳細については、「既存のSLBインスタンスの使用」をご参照ください。

過剰なSLB接続数

アラートの説明: 過去3日間のSLB接続のピーク値が上限の80% を超えているかどうかを確認します。 SLBの接続数が上限に達すると、短期間で新規接続を確立できません。 その結果、クライアントはSLBインスタンスへの接続を確立できません。

解決策: SLBインスタンスに対して確立されている接続の数が多すぎて、過去3日間に上限の80% を超えた場合は、サービスの中断を避けるためにSLBインスタンスをアップグレードします。 詳細については、「既存のSLBインスタンスの使用」をご参照ください。

1秒あたりの新しいSLB接続のレートが高すぎる

アラートの説明: 過去3日間の1秒あたりの新規SLB接続の最大レートが上限の80% を超えているかどうかを確認します。 レートが上限に達すると、クライアントは短期間でSLBインスタンスへの新しい接続を確立できません。

解決策: 1秒あたりの新規SLB接続の速度が高すぎて上限の80% を超える場合は、サービスの中断を避けるためにSLBインスタンスをアップグレードします。 詳細については、「既存のSLBインスタンスの使用」をご参照ください。

過度に高いSLB QPS

アラートの説明: 過去3日間のSLBインスタンスの最大QPS値が上限の80% を超えています。 QPS値が上限に達すると、クライアントはSLBインスタンスに接続できません。

解決策: SLBインスタンスのQPS値が高すぎて上限の80% を超える場合は、サービスの中断を避けるためにSLBインスタンスをアップグレードします。 詳細については、「既存のSLBインスタンスの使用」をご参照ください。

使用可能なポッドCIDRブロックの数が不十分

アラートの説明: FlannelがインストールされているACKクラスターで使用可能なポッドCIDRブロックの数が5未満かどうかを確認します。 クラスター内の各ノードは、ポッドCIDRブロックにアタッチされます。 クラスターに追加できるノードは5つ未満です。 すべてのポッドCIDRブロックが使用されている場合、クラスターに追加する新しいノードは期待どおりに機能しません。

解決策: チケットを起票します。

ノードでの過度に高いCPU使用率

アラートの説明: 過去7日間のノードのCPU使用率を確認します。 ノードのCPU使用率が過度に高く、多数のポッドがスケジュールされている場合、ポッドはリソースを求めて競合します。 これは、サービスの中断をもたらし得る。

解決策: サービスの中断を回避するには、ノードで過剰な数のポッドを実行しないように、ポッド要求と制限を適切な値に設定する必要があります。 詳細については、「ポッドのCPUおよびメモリリソースの上限と下限の変更」をご参照ください。

ノードでの過度に高いメモリ使用量

アラートの説明: 過去7日間のノードのメモリ使用量を確認します。 ノードのメモリ使用量が過度に多く、多数のポッドがスケジュールされている場合、ポッドはリソースを求めて競合します。 これは、メモリ不足 (OOM) エラーにつながり、サービス中断をもたらす可能性がある。

解決策: サービスの中断を回避するには、ポッド要求と制限を適切な値に設定して、ノードで過剰な数のポッドを実行しないようにする必要があります。 詳細については、「ポッドのCPUおよびメモリリソースの上限と下限の変更」をご参照ください。

アイドル状態のvSwitch IPアドレスの数が不十分

アラートの説明: Terwayがインストールされているクラスター内のアイドル状態のvSwitch IPアドレスの数が10未満かどうかを確認します。 各ポッドは1つのvSwitch IPアドレスを占有します。 vSwitch IPアドレスが使い果たされた場合、新しいポッドにはIPアドレスが割り当てられず、期待どおりに起動できません。

解決策: クラスターのvSwitchを作成するか、クラスターに指定されているvSwitchを変更します。 詳細については、「」をご参照ください。TerwayがインストールされているACKクラスターのアイドルvSwitch IPアドレスが不十分な場合はどうすればよいですか?

Ingressコントローラの1秒あたりの新規SLB接続のレートが高すぎる

アラートの説明: 過去3日間の1秒あたりの新規SLB接続の最大レートは、上限の80% を超えています。 レートが上限に達すると、クライアントは短期間でSLBインスタンスへの新しい接続を確立できません。

解決策: SLBインスタンスのQPS値が高すぎる場合は、サービスの中断を避けるためにSLBインスタンスをアップグレードします。 詳細については、「既存のSLBインスタンスの使用」をご参照ください。

IngressコントローラのSLB QPSが高すぎる

アラートの説明: 過去3日間のSLBインスタンスの最大QPS値が上限の80% を超えています。 QPS値が上限に達すると、クライアントはSLBインスタンスに接続できません。

解決策: SLBインスタンスのQPS値が高すぎる場合は、サービスの中断を避けるためにSLBインスタンスをアップグレードします。 詳細については、「既存のSLBインスタンスの使用」をご参照ください。

コントロールプレーンのアイドル状態のvSwitch IPアドレスの数が不十分

アラートの説明: コントロールプレーンのアイドル状態のvSwitch IPアドレスの数が10未満です。 したがって、新しく作成されたポッドは通常どおり実行できません。

解決策: チケットを起票します。

クラスターの古いKubernetesバージョン

アラートの説明: Kubernetesバージョンのクラスターが期限切れになっているか、まもなく期限切れになります。 Container Service for Kubernetes (ACK) クラスターは、最新の3つのバージョンのKubernetesを安定して実行できます。 古いKubernetesメジャーバージョンを実行するACKクラスターでは、安定性の問題や更新の失敗が発生する可能性があります。 ACKでサポートされているKubernetesバージョンのリリースノートの詳細については、「Kubernetesバージョンのサポート」をご参照ください。

解決策: クラスターが古いKubernetesメジャーバージョンを実行している場合は、できるだけ早い機会にクラスターを更新してください。 詳細については、「ACKクラスターの更新またはACKクラスター内の制御プレーンまたはノードプールのみの更新」をご参照ください。

古いCoreDNSバージョン

アラートの説明: クラスターにインストールされているCoreDNSコンポーネントのバージョンが古いです。 最新のCoreDNSバージョンは、より高い安定性と新機能を提供します。

解決策: DNS解決エラーを回避するには、できるだけ早い機会にCoreDNSコンポーネントを更新します。 詳細については、「CoreDNSの手動更新」をご参照ください。

古いノードsystemdバージョン

アラートの説明: systemdバージョンが古くなっており、安定性の問題があり、Dockerおよびcontainerdコンポーネントが誤動作する可能性があります。

解決策: この問題を修正する方法の詳細については、「CentOS 7.6を実行するKubernetesクラスターのkubeletsのログに「Reason:KubeletNotReady message: PLEG is not healthy: 」というエラーメッセージが表示された場合の対処方法」をご参照ください。

古いノードOSバージョン

アラートの説明: OSのバージョンが古く、安定性の問題が発生し、Dockerおよびcontainerdコンポーネントが誤動作する可能性があります。

解決策: 新しいノードプールを作成し、ワークロードを一時的に新しいノードプールに移行してから、現在のノードプール内のノードのOSを更新します。 詳細については、「ノードプールの作成」をご参照ください。

古いクラスターコンポーネントのバージョン

アラートの説明: クラスター内の主要コンポーネントのバージョンが古くなっています。

解決策: ACKコンソールで最も早い機会に主要コンポーネントを最新バージョンに更新します。

ノードのDockerハングエラー

アラートの説明: Dockerはノードでハングします。

ソリューション: ノードにログインし、sudo systemctl restart dockerコマンドを実行してDockerを再起動します。 詳細については、「Dockerd exceptions - RuntimeOffline」をご参照ください。

ノードがサポートするポッドの最大数が正しくない

アラートの説明: ノードでサポートされているポッドの最大数が理論値とは異なります。

解決策: ノードでサポートされるポッドの最大数が理論値と異なり、この制限を変更したことがない場合、チケットを起票します。

CoreDNS ConfigMap設定のエラー

アラートの説明: CoreDNS ConfigMapの設定にエラーが含まれているかどうかを確認します。 設定エラーにより、CoreDNSコンポーネントが誤動作する可能性があります。

解決策: CoreDNS ConfigMapの設定を確認します。 詳細については、「DNSサービスのベストプラクティス」をご参照ください。

CoreDNSデプロイメントエラー

アラートの説明: CoreDNSがマスターノードにデプロイされているかどうかを確認します。 CoreDNSがマスターノードにデプロイされている場合、マスターノードの帯域幅使用量が過度に高くなり、制御プレーンに影響を与える可能性があります。

解決策: CoreDNSポッドをワーカーノードにデプロイします。 詳細については、「DNSトラブルシューティング」をご参照ください。

CoreDNSがインストールされているノードの高可用性の問題

アラートの説明: CoreDNSポッドのデプロイ方法を確認します。 すべてのCoreDNSポッドが同じノードにデプロイされている場合、単一障害点が発生する可能性があります。 ノードが故障または再起動すると、CoreDNSがサービスの提供に失敗し、ビジネスが中断する可能性があります。

解決策: CoreDNSポッドを異なるノードにデプロイします。 詳細については、「DNSトラブルシューティング」をご参照ください。

DNSサービスに使用できるバックエンドDNSサーバーがありません

アラートの説明: クラスター内のDNSサービスに関連付けられているバックエンドDNSサーバーの数を確認します。 番号が0の場合、DNSサービスは利用できません。

解決策: CoreDNSポッドのステータスとログを確認して、DNSの問題をトラブルシューティングします。 詳細については、「DNSトラブルシューティング」をご参照ください。

DNSサービスの異常なClusterIP

アラートの説明: クラスター内のDNSサービスのClusterIPが正常に割り当てられているかどうかを確認します。 異常なDNSサービスは、クラスター機能で例外を引き起こし、ビジネスにさらに影響を与える可能性があります。

解決策: CoreDNSポッドのステータスとログを確認して、DNSの問題をトラブルシューティングします。 詳細については、「DNSトラブルシューティング」をご参照ください。

クラスターの異常なNATゲートウェイのステータス

アラートの説明: クラスター内のNATゲートウェイのステータスを確認します。

解決策: NAT Gatewayコンソールにログインし、料金滞納によりNAT gatewayがロックされているかどうかを確認します。

NATゲートウェイが同時セッションの最大数を超えているため、クラスター内のパケット損失率が過度に高くなります

アラートの説明: NATゲートウェイが最大同時セッション数を超えているため、クラスター内のパケット損失率が高すぎるかどうかを確認します。

解決策: NATゲートウェイが同時セッションの最大数を超えているためにクラスター内のパケット損失率が過度に高い場合は、NATゲートウェイをアップグレードすることで問題を解決できます。 詳細については、「標準インターネットNATゲートウェイの拡張インターネットNATゲートウェイへのアップグレードに関するFAQ」をご参照ください。

NodeLocal DNSCacheのDNSConfigインジェクションの自動無効化

アラートの説明: 自動DNSConfigインジェクションが有効かどうかを確認します。 NodeLocal DNSCacheは、自動DNSConfigインジェクションが有効な場合にのみ有効になります。

ソリューション: 自動DNSConfigインジェクションを有効にします。 詳細については、「NodeLocal DNSCacheの設定」をご参照ください。

APIサーバーに関連付けられたSLBインスタンスのアクセス制御設定のエラー

アラートの説明: APIサーバーに関連付けられているSLBインスタンスのアクセス制御設定にエラーが含まれているかどうかを確認します。 APIサーバーに関連付けられているSLBインスタンスのアクセス制御設定が、クラスターのVPC CIDRブロックおよび100.104.0.0/16からのアクセスを許可しているかどうかを確認します。 そうでない場合、クラスターは利用できなくなります。

解決方法: APIサーバーに関連付けられているSLBインスタンスのアクセス制御設定を変更します。

APIサーバーに関連付けられているSLBインスタンスのバックエンドサーバーの異常状態

アラートの説明: ACK専用クラスターのAPIサーバーに関連付けられているSLBインスタンスのバックエンドサーバーのステータスを確認します。 ACK専用クラスターのAPIサーバーに関連付けられているSLBインスタンスのバックエンドサーバーには、マスターノードが含まれている必要があります。 そうでない場合、トラフィック転送例外が発生します。

解決策: SLBインスタンスの転送ルールにマスターノードを追加します。

APIサーバーに関連付けられているSLBインスタンスのポート6443でリッスンするリスナーの構成のエラー

アラートの説明: APIサーバーに関連付けられているSLBインスタンスのポート6443でリッスンするリスナーの設定を確認します。 設定にエラーが含まれている場合、クラスターにアクセスできません。

解決策: リスナーの設定を変更して、クラスターが作成された状態に復元します。

APIサーバーに関連付けられているSLBインスタンスが存在しません

アラートの説明: APIサーバーに関連付けられているSLBインスタンスがクラスターに存在するかどうかを確認します。 SLBインスタンスが存在しない場合、クラスターは使用できません。

解決策: SLBインスタンスが誤って削除された場合、チケットを起票します。

APIサーバーに関連付けられているSLBインスタンスの異常状態

アラートの説明: APIサーバーに関連付けられているSLBインスタンスのステータスを確認します。 SLBインスタンスのステータスが異常の場合、クラスターは使用できません。

解決策: SLBインスタンスのステータスが正常であることを確認してください。

IngressコントローラのSLBヘルスチェックの失敗

アラートの説明: SLBインスタンスは、過去3日間にヘルスチェックに失敗しました。 障害は、高いコンポーネント負荷または誤ったコンポーネント構成によって引き起こされる可能性があります。

解決策: SLBインスタンスは、過去3日間にヘルスチェックに合格しませんでした。 サービスの中断を回避するには、Ingressコントローラーサービスに異常イベントが生成されているかどうか、およびコンポーネントの負荷が高すぎるかどうかを確認します。 問題のトラブルシューティング方法の詳細については、「NGINX Ingressコントローラーのトラブルシューティング」をご参照ください。

準備が整ったIngressポッドの割合が低い

アラートの説明: Ingress Deployment用に作成されたポッドのうち、準備完了ポッドの割合が100% 未満です。 この場合、Ingress Deploymentは開始できず、ヘルスチェックに失敗します。

解決策: ポッド診断機能を使用するか、Ingressのトラブルシューティングドキュメントを参照して、準備ができていないポッドを特定します。 詳細については、「NGINX Ingressコントローラーのトラブルシューティング」をご参照ください。

Ingressコントローラポッドのエラーログ

アラートの説明: Ingressコントローラポッドはエラーログを生成します。 これは、Ingressコントローラーが期待どおりに機能しないことを示します。

解決策: エラーログに基づいて問題をトラブルシューティングします。 詳細については、「NGINX Ingressコントローラーのトラブルシューティング」をご参照ください。

NGINX Ingressでキャプチャグループを指定しない書き換え対象アノテーションの使用

アラートの説明: 書き換え対象のアノテーションはNGINX Ingressのルールで指定されていますが、キャプチャグループは指定されていません。 Ingressコントローラー0.22.0以降で、書き換え対象アノテーションが設定されている場合は、キャプチャグループを指定する必要があります。 そうでなければ、トラフィック転送は中断される。

解決策: NGINX Ingressのルールを再設定し、キャプチャグループを指定します。 詳細については、「高度なNGINX Ingress設定」をご参照ください。

不適切なカナリアがNGINX Ingressのルールをリリース

アラートの説明: service-matchまたはservice-weightアノテーションは、3つ以上のサービスに対して設定されています。 service-matchまたはservice-weightアノテーションは、トラフィック分散用に最大2つのサービスをサポートします。 service-matchアノテーションまたはservice-weightアノテーションが3つ以上のサービスに対して構成されている場合、追加のサービスは無視され、トラフィックは期待どおりに転送されません。

解決策: サービスの数を2つに減らします。

NGINX Ingressアノテーションが正しくない

アラートの説明: オープンソースのNGINX Ingressコントローラーは、nginx.ingress.kubernetes.ioで始まるアノテーションの代わりに、nginx.com/nginx.orgで始まるアノテーションを使用します。 nginx.com/nginx.orgで始まるアノテーションは、NGINX Ingressコントローラーでは認識できません。 アノテーションが使用されている場合、関連する設定はNGINX Ingressコントローラーに適用されません。

解決策: NGINX Ingressコントローラーでサポートされているアノテーションを使用します。 NGINX Ingressアノテーションの詳細については、「Alibaba Cloudドキュメント」または「コミュニティドキュメント」をご参照ください。

非推奨コンポーネントの使用

アラートの説明: 非推奨のコンポーネントがクラスターにインストールされます。

解決策: alicloud-application-controllerコンポーネントが廃止されました。 コンポーネントがクラスターにインストールされている場合、クラスターの更新または使用に失敗することがあります。 非推奨のコンポーネントがクラスターにインストールされている場合は、コンポーネントをアンインストールします。 詳細については、「コンポーネントの管理」をご参照ください。

Kubernetes APIサーバーへの接続エラー

アラートの説明: ノードはクラスターのKubernetes APIサーバーに接続できません。

解決策: クラスター設定を確認します。 詳細については、「ACKクラスターのトラブルシューティング」をご参照ください。

ノードのポッドCIDRブロックとVPCルートテーブルに関連する問題

アラートの説明: ポッドCIDRブロックがVPCルートテーブルに含まれているかどうかを確認します。

解決策: ノードのポッドCIDRブロックがVPCルートテーブルに含まれていない場合は、次のホップがポッドCIDRブロックの現在のノードであるルートを追加します。 詳細については、「手順2: カスタムルートテーブルにカスタムルートを追加する」をご参照ください。

ノードファイルシステムの読み取り専用ステータスに関する問題

アラートの説明: ノードのファイルシステムが読み取り専用の場合、通常はディスク障害が原因です。 この問題は、ノードがデータを書き込むのを妨げる可能性があり、サービスの中断につながる可能性があります。

解決策: ノードでfsckコマンドを実行してファイルシステムを修復し、ノードを再起動します。

ノードのkubeletのバージョンに関する問題

アラートの説明: ノード上のkubeletのバージョンが制御プレーンのバージョンより前であるかどうかを確認します。

解決策: ノード上のkubeletのバージョンがコントロールプレーンのバージョンよりも前の場合、安定性の問題を回避するためにノードを手動で削除することをお勧めします。 詳細については、「機能とカスタム設定」をご参照ください。

ノードに指定されたセキュリティグループのアウトバウンドルールに関する問題

アラートの説明: ノードに指定されたセキュリティグループのアウトバウンドルールが、クラスターのアクセス許可要件を満たしているかどうかを確認します。

解決方法: セキュリティグループのアウトバウンドルールがクラスターのアクセス許可要件を満たしていない場合は、アウトバウンドルールを変更します。 詳細については、「クラスターのセキュリティグループの設定」をご参照ください。

ノードに指定されたセキュリティグループのインバウンドルールに関する問題

アラートの説明: ノードに指定されたセキュリティグループのインバウンドルールが、クラスターのアクセス許可要件を満たしているかどうかを確認します。

解決方法: セキュリティグループのインバウンドルールがクラスターのアクセス許可要件を満たしていない場合は、インバウンドルールを変更します。 詳細については、「クラスターのセキュリティグループの設定」をご参照ください。

ノードがインターネットにアクセスできない

アラートの説明: ノードがインターネットにアクセスできるかどうかを確認します。

解決策: クラスターに対してSNATが有効になっているかどうかを確認します。 SNATを有効にする方法の詳細については、「既存のACKクラスターを有効にしてインターネットにアクセスする」をご参照ください。

複数のサービスによって共有される1つのSLBポート

アラートの説明: SLBインスタンスのポートは複数のサービスで共有されています。 これにより、サービス例外が発生します。

解決策: 同じSLBポートを共有する競合するサービスを削除または変更します。 同じSLBインスタンスを共有する場合は、必ず異なるポートを使用してください。