すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:Container Service のアラート管理

最終更新日:Nov 09, 2025

Container Service のアラート管理機能を有効にすると、コンテナーのアラートを一元管理できます。この機能は、コンテナーサービスにおける異常イベント、基本的なクラスターリソースの主要メトリック、およびクラスターのコアコンポーネントとアプリケーションのメトリックをモニタリングします。また、カスタムリソース定義 (CRD) を使用して、クラスター内のデフォルトのアラートルールを変更することもできます。これにより、クラスターの異常を迅速に検出できます。

課金

アラート機能は、Simple Log Service (SLS)、Managed Service for Prometheus、および CloudMonitor からのデータを使用します。アラートがトリガーされたときに送信されるショートメッセージや電話などの通知には、追加料金が課金されます。アラート機能を有効にする前に、デフォルトのアラートルールテンプレートの各アラート項目のデータソースを確認し、必要なサービスを有効化してください。

アラートソース

設定要件

課金の詳細

Simple Log Service (SLS)

イベントモニタリングを有効にします。イベントモニタリングは、アラート管理機能を有効にするとデフォルトで有効になります。

機能別の課金

Managed Service for Prometheus

クラスターの Prometheus モニタリングを設定します。

無料

CloudMonitor

クラスターの場合: Container Service for Kubernetes クラスターの Cloud Monitor 機能を有効にする

従量課金

アラート管理機能を有効にする

アラート管理機能を有効にすると、クラスター内の指定されたリソースに対してメトリックベースのアラートを設定できます。異常が発生すると、アラート通知が自動的に受信されます。これにより、クラスターをより効率的に管理およびメンテナンスし、サービスの安定性を確保できます。リソースアラートの詳細については、「デフォルトのアラートルールテンプレート」をご参照ください。

ACK マネージドクラスター

既存のクラスターまたは新しいクラスターを作成するときに、アラート設定を有効にできます。

既存のクラスターで機能を有効にする

  1. ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、目的のクラスターを見つけてその名前をクリックします。左側のペインで、[運用] > [アラート] を選択します。

  3. [アラート] ページで、画面の指示に従ってコンポーネントをインストールまたはスペックアップします。

  4. インストールまたはスペックアップが完了したら、[アラート] ページに移動してアラート情報を設定します。

    タブ

    説明

    アラートルール管理

    • ステータス: ターゲットのアラートルールセットをオンまたはオフにします。

    • 通知オブジェクトの編集: アラート通知のアラートグループを設定します。

    これを設定する前に、連絡先とグループを作成し、連絡先をグループに追加します。通知オブジェクトとして選択できるのはアラートグループのみです。個人に通知するには、その連絡先のみを含むグループを作成し、そのグループを選択します。

    アラート履歴

    過去 24 時間の最新 100 件のアラートレコードを表示できます。

    • [アラートルール] 列のリンクをクリックして、対応するモニタリングシステムに移動し、詳細なルール設定を表示します。

    • [トラブルシューティング] をクリックして、異常が発生したリソース (異常なイベントまたはメトリック) をすばやく特定します。

    • [インテリジェント分析] をクリックして、AI アシスタントを使用して問題を分析し、トラブルシューティングのガイダンスを提供します。

    連絡先管理

    連絡先を管理します。連絡先の作成、編集、削除ができます。

    連絡方法:

    • 電話/ショートメッセージ: 連絡先に携帯電話番号を設定すると、連絡先は電話とショートメッセージでアラート通知を受信できます。

      電話通知の受信に使用できるのは、確認済みの携帯電話番号のみです。携帯電話番号の確認方法の詳細については、「携帯電話番号の確認」をご参照ください。
    • メール: 連絡先にメールアドレスを設定すると、連絡先はメールでアラート通知を受信できます。

    • ロボット: DingTalk ロボットWeCom ロボットLark ロボット

      DingTalk ロボットの場合、セキュリティキーワードとして Alerting、Dispatch を追加する必要があります。
    メールとロボットの通知を設定する前に、CloudMonitor コンソールで確認してください。[アラートサービス] > [アラート連絡先] を選択して、アラート情報を受信できることを確認します。

    連絡先グループの管理

    アラートグループを管理します。アラートグループの作成、編集、削除ができます。[通知オブジェクトの編集] では、アラートグループのみを選択できます。

    アラートグループが存在しない場合、コンソールは Alibaba Cloud アカウント情報に基づいてデフォルトのアラートグループを作成します。

クラスター作成時に機能を有効にする

クラスター作成ウィザードの [コンポーネント設定] ページで、[アラート][デフォルトのアラートテンプレートを使用してアラートを設定] を選択し、[アラート通知連絡先グループ] を選択します。詳細については、「ACK マネージドクラスターの作成」をご参照ください。

image

クラスター作成中にアラート設定を有効にすると、システムはデフォルトのアラートルールを有効にし、デフォルトのアラートグループにアラート通知を送信します。また、アラート連絡先またはアラートグループを変更することもできます。

ACK 専用クラスター

ACK 専用クラスターの場合、まずワーカー RAM ロールに権限を付与し、次にデフォルトのアラートルールを有効にする必要があります。

ワーカー RAM ロールへの権限付与

  1. ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、ターゲットクラスターを見つけてその名前をクリックします。左側のナビゲーションウィンドウで、クラスター情報 をクリックします。

  3. [クラスター情報] ページの [クラスターリソース] セクションで、[ワーカー RAM ロール] の名前をコピーし、リンクをクリックして [Resource Access Management (RAM)] コンソールを開き、ロールに権限を付与します。

    1. カスタムポリシーを作成します。詳細については、「JSON タブでカスタムポリシーを作成する」をご参照ください。

      {
                  "Action": [
                      "log:*",
                      "arms:*",
                      "cms:*",
                      "cs:UpdateContactGroup"
                  ],
                  "Resource": [
                      "*"
                  ],
                  "Effect": "Allow"
      }
    2. [ロール] ページで、ワーカー RAM ロールを見つけて、カスタムポリシーを付与します。詳細については、「方法 1: RAM ロールページで RAM ロールに権限を付与する」をご参照ください。

  4. 注: このドキュメントでは、簡潔にするために広範な権限を付与しています。本番環境では、最小権限の原則に従い、必要な権限のみを付与することを推奨します。
    1. [ロール] ページで、ワーカー RAM ロールを見つけて、カスタムポリシーを付与します。詳細については、「方法 1: RAM ロールページで RAM ロールに権限を付与する」をご参照ください。

  5. ログをチェックして、アラート機能のアクセス権限が設定されていることを確認します。

    1. クラスター管理ページの左側のナビゲーションウィンドウで、[ワークロード] > [ステートレス] を選択します。

    2. [名前空間] を kube-system に設定し、ステートレスアプリケーションのリストにある alicloud-monitor-controller アプリケーションの [名前] をクリックします。

    3. [ログ] タブをクリックします。Pod のログは、権限付与が成功したことを示します。

デフォルトのアラートルールを有効にする

  1. クラスター管理ページの左側のナビゲーションウィンドウで、[O&M] > [アラート] を選択します。

  2. [アラート] ページで、次のアラート情報を設定します。

    タブ

    説明

    アラートルール管理

    • ステータス: ターゲットのアラートルールセットをオンまたはオフにします。

    • 通知オブジェクトの編集: アラート通知のアラートグループを設定します。

    これを設定する前に、連絡先とグループを作成し、連絡先をグループに追加します。通知オブジェクトとして選択できるのはアラートグループのみです。個人に通知するには、その連絡先のみを含むグループを作成し、そのグループを選択します。

    アラート履歴

    過去 24 時間の最新 100 件のアラートレコードを表示できます。

    • [アラートルール] 列のリンクをクリックして、対応するモニタリングシステムに移動し、詳細なルール設定を表示します。

    • [トラブルシューティング] をクリックして、異常が発生したリソース (異常なイベントまたはメトリック) をすばやく特定します。

    • [インテリジェント分析] をクリックして、AI アシスタントを使用して問題を分析し、トラブルシューティングのガイダンスを提供します。

    連絡先管理

    連絡先を管理します。連絡先の作成、編集、削除ができます。

    連絡方法:

    • 電話/ショートメッセージ: 連絡先に携帯電話番号を設定すると、連絡先は電話とショートメッセージでアラート通知を受信できます。

      電話通知の受信に使用できるのは、確認済みの携帯電話番号のみです。携帯電話番号の確認方法の詳細については、「携帯電話番号の確認」をご参照ください。
    • メール: 連絡先にメールアドレスを設定すると、連絡先はメールでアラート通知を受信できます。

    • ロボット: DingTalk ロボットWeCom ロボットLark ロボット

      DingTalk ロボットの場合、セキュリティキーワードとして Alerting、Dispatch を追加する必要があります。
    メールとロボットの通知を設定する前に、CloudMonitor コンソールで確認してください。[アラートサービス] > [アラート連絡先] を選択して、アラート情報を受信できることを確認します。

    アラートグループ管理

    アラートグループを管理します。アラートグループの作成、編集、削除ができます。[通知オブジェクトの編集] では、アラートグループのみを選択できます。

    アラートグループが存在しない場合、コンソールは Alibaba Cloud アカウント情報に基づいてデフォルトのアラートグループを作成します。

アラートルールの設定

アラート設定機能を有効にすると、kube-system 名前空間に AckAlertRule カスタムリソース定義 (CRD) リソースが作成されます。このリソースには、デフォルトのアラートルールテンプレートが含まれています。この CRD リソースを変更して、デフォルトのアラートルールをカスタマイズし、要件を満たすコンテナーサービスのアラートを設定できます。

コンソール

  1. ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、目的のクラスターを見つけてその名前をクリックします。左側のペインで、[運用] > [アラート] を選択します。

  3. [アラートルール管理] タブで、右上隅の [アラート設定の編集] をクリックします。次に、ターゲットルールの [アクション] 列にある [YAML] をクリックして、現在のクラスターの AckAlertRule リソース設定を表示します。

  4. 必要に応じて YAML ファイルを変更します。詳細については、「デフォルトのアラートルールテンプレート」をご参照ください。

    次のコードは、アラートルールのサンプル YAML 設定を示しています。

    アラートルール設定 YAML

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # 次のコードは、クラスターイベントのアラートルールのサンプル設定です。
        - name: pod-exceptions                             # アラートルールグループの名前。これは、アラートテンプレートの Group_Name フィールドに対応します。
          rules:
            - name: pod-oom                                # アラートルールの名前。
              type: event                                  # アラートルールのタイプ (Rule_Type)。有効な値: event (イベントタイプ) および metric-cms (CloudMonitor メトリックタイプ)。
              expression: sls.app.ack.pod.oom              # アラートルールの式。ルールタイプが event の場合、このパラメーターの値は、このトピックのデフォルトのアラートルールテンプレートの Rule_Expression_Id 値です。
              enable: enable                               # アラートルールのステータス。有効な値: enable および disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # 次のコードは、基本的なクラスターリソースのアラートルールのサンプル設定です。
        - name: res-exceptions                              # アラートルールグループの名前。これは、アラートテンプレートの Group_Name フィールドに対応します。
          rules:
            - name: node_cpu_util_high                      # アラートルールの名前。
              type: metric-cms                              # アラートルールのタイプ (Rule_Type)。有効な値: event (イベントタイプ)、metric-cms (CloudMonitor メトリック)、および metric-prometheus (Prometheus メトリック)。
              expression: cms.host.cpu.utilization          # アラートルールの式。ルールタイプが metric-cms の場合、このパラメーターの値は、このトピックのデフォルトのアラートルールテンプレートの Rule_Expression_Id 値です。
              contactGroups:                                # アラートルールのアラートグループ設定。これは ACK コンソールによって生成されます。連絡先は同じアカウントで同じであり、複数のクラスターで再利用できます。
              enable: enable                                # アラートルールのステータス。有効な値: enable および disable。
              thresholds:                                   # アラートルールのしきい値。          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # CPU 使用率のしきい値。デフォルト: 85%。    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # しきい値を 3 回連続で超えるとアラートがトリガーされます。
                - key: CMS_RULE_SILENCE_SEC                 # 最初のアラートが報告された後の解約待機期間。 
                  value: '900'    

    rules.thresholds を使用して、アラートのしきい値をカスタマイズできます。パラメーターの詳細については、次の表をご参照ください。たとえば、前述の設定では、クラスターノードの CPU 使用率が 3 回連続で 85% を超え、前回のアラートが 900 秒以上前にトリガーされた場合にアラート通知がトリガーされます。

    パラメーター

    必須

    説明

    デフォルト値

    CMS_ESCALATIONS_CRITICAL_Threshold

    必須

    アラートのしきい値。このパラメーターが設定されていない場合、ルールの同期に失敗し、無効になります。

    • unit: 単位。percentcount、または qps に設定できます。

    • value: しきい値。

    デフォルトのアラートテンプレートの設定に依存します。

    CMS_ESCALATIONS_CRITICAL_Times

    任意

    CloudMonitor ルールのリトライ回数。設定されていない場合は、デフォルト値が使用されます。

    3

    CMS_RULE_SILENCE_SEC

    任意

    CloudMonitor が異常によりルールを継続的にトリガーした場合に、最初のアラートが報告された後の解約待機期間 (秒単位)。これにより、アラート疲れを防ぎます。設定されていない場合は、デフォルト値が使用されます。

    900

kubectl

  1. 次のコマンドを実行して、アラートルールの YAML ファイルを編集します。

    kubectl edit ackalertrules default -n kube-system
  2. 必要に応じて YAML ファイルを変更し、保存して終了します。詳細については、「デフォルトのアラートルールテンプレート」をご参照ください。

    アラートルール設定 YAML

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # 次のコードは、クラスターイベントのアラートルールのサンプル設定です。
        - name: pod-exceptions                             # アラートルールグループの名前。これは、アラートテンプレートの Group_Name フィールドに対応します。
          rules:
            - name: pod-oom                                # アラートルールの名前。
              type: event                                  # アラートルールのタイプ (Rule_Type)。有効な値: event (イベントタイプ) および metric-cms (CloudMonitor メトリックタイプ)。
              expression: sls.app.ack.pod.oom              # アラートルールの式。ルールタイプが event の場合、このパラメーターの値は、このトピックのデフォルトのアラートルールテンプレートの Rule_Expression_Id 値です。
              enable: enable                               # アラートルールのステータス。有効な値: enable および disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # 次のコードは、基本的なクラスターリソースのアラートルールのサンプル設定です。
        - name: res-exceptions                              # アラートルールグループの名前。これは、アラートテンプレートの Group_Name フィールドに対応します。
          rules:
            - name: node_cpu_util_high                      # アラートルールの名前。
              type: metric-cms                              # アラートルールのタイプ (Rule_Type)。有効な値: event (イベントタイプ) および metric-cms (CloudMonitor メトリックタイプ)。
              expression: cms.host.cpu.utilization          # アラートルールの式。ルールタイプが metric-cms の場合、このパラメーターの値は、このトピックのデフォルトのアラートルールテンプレートの Rule_Expression_Id 値です。
              contactGroups:                                # アラートルールのアラートグループ設定。これは ACK コンソールによって生成されます。連絡先は同じアカウントで同じであり、複数のクラスターで再利用できます。
              enable: enable                                # アラートルールのステータス。有効な値: enable および disable。
              thresholds:                                   # アラートルールのしきい値。          
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '85'                                # CPU 使用率のしきい値。デフォルト: 85%。    
                - key: CMS_ESCALATIONS_CRITICAL_Times
                  value: '3'                                # しきい値を 3 回連続で超えるとアラートがトリガーされます。
                - key: CMS_RULE_SILENCE_SEC                 # 最初のアラートが報告された後の解約待機期間。 
                  value: '900'    

    rules.thresholds を使用して、アラートのしきい値をカスタマイズできます。たとえば、前述の設定では、クラスターノードの CPU 使用率が 3 回連続で 85% を超え、前回のアラートが 900 秒以上前にトリガーされた場合にアラート通知がトリガーされます。

    パラメーター

    必須

    説明

    デフォルト値

    CMS_ESCALATIONS_CRITICAL_Threshold

    必須

    アラートのしきい値。このパラメーターが設定されていない場合、ルールの同期に失敗し、無効になります。

    • unit: 単位。percentcount、または qps に設定できます。

    • value: しきい値。

    デフォルトのアラートテンプレートの設定に依存します。

    CMS_ESCALATIONS_CRITICAL_Times

    任意

    CloudMonitor ルールのリトライ回数。設定されていない場合は、デフォルト値が使用されます。

    3

    CMS_RULE_SILENCE_SEC

    任意

    CloudMonitor が異常によりルールを継続的にトリガーした場合に、最初のアラートが報告された後の解約待機期間 (秒単位)。これにより、アラート疲れを防ぎます。設定されていない場合は、デフォルト値が使用されます。

    900

デフォルトのアラートルールテンプレート

アラートルールは、Simple Log Service (SLS)、Managed Service for Prometheus、および CloudMonitor から同期されます。[アラート] ページで、[アラート管理] 列の [詳細設定] をクリックして、各アラートルールの設定を表示できます。

エラーイベントセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

エラーイベント

このアラートは、クラスター内のすべての Error レベルの異常イベントによってトリガーされます。

Simple Log Service

event

error-event

sls.app.ack.error

Warn イベントセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

Warn イベント

このアラートは、クラスター内の主要な Warn レベルの異常イベントによってトリガーされますが、無視できる一部のイベントは除外されます。

Simple Log Service

event

warn-event

sls.app.ack.warn

ACK マネージドクラスターのコアコンポーネント異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

クラスター API サーバーの異常な可用性

このアラートは、API サーバーが利用できなくなったときにトリガーされ、クラスター管理機能が制限される可能性があります。

Managed Service for Prometheus

metric-prometheus

apiserver-unhealthy

prom.apiserver.notHealthy.down

クラスター etcd の異常な可用性

etcd が利用できなくなると、クラスター全体のステータスに影響します。

Managed Service for Prometheus

metric-prometheus

etcd-unhealthy

prom.etcd.notHealthy.down

クラスター kube-scheduler の異常な可用性

スケジューラは Pod のスケジューリングを担当します。スケジューラが利用できない場合、新しい Pod の起動に失敗する可能性があります。

Managed Service for Prometheus

metric-prometheus

scheduler-unhealthy

prom.scheduler.notHealthy.down

クラスター KCM の異常な可用性

コントロールループの異常は、クラスターの自動修復およびリソース調整メカニズムに影響します。

Managed Service for Prometheus

metric-prometheus

kcm-unhealthy

prom.kcm.notHealthy.down

クラスター cloud-controller-manager の異常な可用性

外部クラウドサービスコンポーネントのライフサイクル管理の異常は、サービスの動的な調整に影響する可能性があります。

Managed Service for Prometheus

metric-prometheus

ccm-unhealthy

prom.ccm.notHealthy.down

クラスター CoreDNS の異常な可用性: リクエストがゼロに低下

CoreDNS はクラスターの DNS サービスです。異常はサービスディスカバリと名前解決に影響します。

Managed Service for Prometheus

metric-prometheus

coredns-unhealthy-requestdown

prom.coredns.notHealthy.requestdown

クラスター CoreDNS の異常な可用性: パニックエラー

このアラートは、CoreDNS でパニックエラーが発生したときにトリガーされます。診断のために直ちにログを分析する必要があります。

Managed Service for Prometheus

metric-prometheus

coredns-unhealthy-panic

prom.coredns.notHealthy.panic

クラスター Ingress リクエストの高いエラー率

Ingress コントローラーによって処理される HTTPS リクエストの高いエラー率は、サービスのアクセシビリティに影響する可能性があります。

Managed Service for Prometheus

metric-prometheus

ingress-err-request

prom.ingress.request.errorRateHigh

クラスター Ingress コントローラーの証明書がまもなく期限切れになる

期限切れの SSL 証明書は HTTPS リクエストの失敗を引き起こします。事前に証明書を更新する必要があります。

Managed Service for Prometheus

metric-prometheus

ingress-ssl-expire

prom.ingress.ssl.expire

保留中の Pod の数 > 1,000

クラスター内の Pod が多すぎて保留状態のままである場合、リソース不足または不合理なスケジューリングポリシーを示している可能性があります。

Managed Service for Prometheus

metric-prometheus

pod-pending-accumulate

prom.pod.pending.accumulate

クラスター API サーバーの mutating admission webhook の高い RT

mutating admission webhook からの応答が遅いと、リソースの作成と変更の効率に影響します。

Managed Service for Prometheus

metric-prometheus

apiserver-admit-rt-high

prom.apiserver.mutating.webhook.rt.high

クラスター API サーバーの validating admission webhook の高い RT

validating admission webhook からの応答が遅いと、設定変更に遅延が生じる可能性があります。

Managed Service for Prometheus

metric-prometheus

apiserver-validate-rt-high

prom.apiserver.validation.webhook.rt.high

コントロールプレーンコンポーネントで OOM が発生

クラスターのコアコンポーネントでメモリ不足 (OOM) エラーが発生します。サービスのダウンタイムを防ぐために、異常を詳細に調査する必要があります。

Simple Log Service

event

ack-controlplane-oom

sls.app.ack.controlplane.pod.oom

ノードプール O&M イベントのアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ノードの自動修復に失敗

ノードの自動修復プロセスが失敗した場合、原因を直ちに特定し、問題を修正して高可用性を確保する必要があります。

Simple Log Service

event

node-repair_failed

sls.app.ack.rc.node_repair_failed

ノードの CVE 修正に失敗

重要な CVE 修正が失敗した場合、クラスターのセキュリティに影響が出る可能性があります。緊急に評価し、問題を修正する必要があります。

Simple Log Service

event

nodepool-cve-fix-failed

sls.app.ack.rc.node_vulnerability_fix_failed

ノードプールの CVE 修正に成功

CVE 修正を正常に適用すると、既知の脆弱性のセキュリティリスクが軽減されます。

Simple Log Service

event

nodepool-cve-fix-succ

sls.app.ack.rc.node_vulnerability_fix_succeed

ノードプールの CVE 自動修正がスキップされる

自動修正は、互換性の問題や特定の設定が原因でスキップされる可能性があります。セキュリティポリシーが合理的であるかどうかを確認する必要があります。

Simple Log Service

event

nodepool-cve-fix-skip

sls.app.ack.rc.node_vulnerability_fix_skipped

ノードプールの kubelet パラメーター設定に失敗

kubelet 設定の更新に失敗すると、ノードのパフォーマンスとリソースのスケジューリングに影響する可能性があります。

Simple Log Service

event

nodepool-kubelet-cfg-failed

sls.app.ack.rc.node_kubelet_config_failed

ノードプールの kubelet パラメーター設定に成功

新しい kubelet 設定が正常に適用された後、それが有効になり、期待どおりに動作することを確認します。

Simple Log Service

event

nodepool-kubelet-config-succ

sls.app.ack.rc.node_kubelet_config_succeed

ノードプールの kubelet スペックアップに失敗

これはクラスターの安定性と機能に影響する可能性があります。スペックアッププロセスと設定を確認する必要があります。

Simple Log Service

event

nodepool-k-c-upgrade-failed

sls.app.ack.rc.node_kubelet_config_upgrade_failed

ノードプールの kubelet スペックアップに成功

スペックアップが成功したことを確認した後、kubelet のバージョンがクラスターとアプリケーションの要件を満たしていることを確認します。

Simple Log Service

event

nodepool-k-c-upgrade-succ

sls.app.ack.rc.kubelet_upgrade_succeed

ノードプールのランタイムスペックアップに成功

ノードプール内のコンテナーランタイムが正常にスペックアップされました。

Simple Log Service

event

nodepool-runtime-upgrade-succ

sls.app.ack.rc.runtime_upgrade_succeed

ノードプールのランタイムスペックアップに失敗

ノードプール内のコンテナーランタイムのスペックアップに失敗しました。

Simple Log Service

event

nodepool-runtime-upgrade-fail

sls.app.ack.rc.runtime_upgrade_failed

ノードプールの OS イメージスペックアップに成功

ノードプール内のオペレーティングシステムイメージが正常にスペックアップされました。

Simple Log Service

event

nodepool-os-upgrade-succ

sls.app.ack.rc.os_image_upgrade_succeed

ノードプールの OS イメージスペックアップに失敗

ノードプール内のオペレーティングシステムイメージのスペックアップに失敗しました。

Simple Log Service

event

nodepool-os-upgrade-failed

sls.app.ack.rc.os_image_upgrade_failed

Lingjun ノードプールの設定変更に成功

Lingjun ノードプールの設定が正常に変更されました。

Simple Log Service

event

nodepool-lingjun-config-succ

sls.app.ack.rc.lingjun_configuration_apply_succeed

Lingjun ノードプールの設定変更に失敗

Lingjun ノードプールの設定変更に失敗しました。

Simple Log Service

event

nodepool-lingjun-cfg-failed

sls.app.ack.rc.lingjun_configuration_apply_failed

ノード異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

クラスターノード上の異常な Docker プロセス

クラスターノード上の Dockerd または containerd ランタイムが異常です。

Simple Log Service

event

docker-hang

sls.app.ack.docker.hang

クラスターのエビクションイベント

クラスターでエビクションイベントが発生します。

Simple Log Service

event

eviction-event

sls.app.ack.eviction

クラスター内の GPU XID エラーイベント

クラスターで異常な GPU XID イベントが発生します。

Simple Log Service

event

gpu-xid-error

sls.app.ack.gpu.xid_error

クラスターノードがオフラインになる

クラスター内のノードがオフラインになります。

Simple Log Service

event

node-down

sls.app.ack.node.down

クラスターノードが再起動する

クラスター内のノードが再起動します。

Simple Log Service

event

node-restart

sls.app.ack.node.restart

クラスターノード上の異常な時刻サービス

クラスターノード上の時刻同期システムサービスが異常です。

Simple Log Service

event

node-ntp-down

sls.app.ack.ntp.down

クラスターノード上の異常な PLEG

クラスターノード上の PLEG が異常です。

Simple Log Service

event

node-pleg-error

sls.app.ack.node.pleg_error

クラスターノード上の異常なプロセス

クラスターノード上のプロセス数が異常です。

Simple Log Service

event

ps-hang

sls.app.ack.ps.hang

クラスターノード上のファイルハンドルが多すぎる

ノード上のファイルハンドルの数が多すぎます。

Simple Log Service

event

node-fd-pressure

sls.app.ack.node.fd_pressure

クラスターノード上のプロセスが多すぎる

クラスターノード上のプロセス数が多すぎます。

Simple Log Service

event

node-pid-pressure

sls.app.ack.node.pid_pressure

ノードの削除に失敗

クラスターがノードの削除に失敗したことを示すイベント。

Simple Log Service

event

node-del-err

sls.app.ack.ccm.del_node_failed

ノードの追加に失敗

クラスターがノードの追加に失敗したことを示すイベント。

Simple Log Service

event

node-add-err

sls.app.ack.ccm.add_node_failed

マネージドノードプールでのコマンド実行に失敗

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-run-cmd-err

sls.app.ack.nlc.run_command_fail

マネージドノードプールのタスクに特定のコマンドが提供されていない

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-empty-cmd

sls.app.ack.nlc.empty_task_cmd

マネージドノードプールで未実装のタスクモードが発生

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-url-m-unimp

sls.app.ack.nlc.url_mode_unimpl

マネージドノードプールで不明な修復操作が発生

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-opt-no-found

sls.app.ack.nlc.op_not_found

マネージドノードプールでノードを破棄する際にエラーが発生

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-des-node-err

sls.app.ack.nlc.destroy_node_fail

マネージドノードプール内のノードのドレインに失敗

クラスターのマネージドノードプールでの異常なドレインイベント。

Simple Log Service

event

nlc-drain-node-err

sls.app.ack.nlc.drain_node_fail

マネージドノードプールで再起動された ECS インスタンスが望ましい状態に達しない

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-restart-ecs-wait

sls.app.ack.nlc.restart_ecs_wait_fail

マネージドノードプール内の ECS インスタンスの再起動に失敗

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-restart-ecs-err

sls.app.ack.nlc.restart_ecs_fail

マネージドノードプール内の ECS インスタンスのリセットに失敗

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-reset-ecs-err

sls.app.ack.nlc.reset_ecs_fail

マネージドノードプールでの自己修復タスクに失敗

クラスターのマネージドノードプールでの異常なイベント。

Simple Log Service

event

nlc-sel-repair-err

sls.app.ack.nlc.repair_fail

リソース異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

クラスターノードの CPU 使用率 ≥ 85%

クラスター内のノードインスタンスの CPU 使用率がしきい値を超えています。デフォルト値: 85%。

残りのリソースが 15% 未満の場合、コンテナーエンジンレイヤーの CPU リソース予約を超える可能性があります。詳細については、「ノードリソース予約ポリシー」をご参照ください。これにより、頻繁な CPU スロットリングが発生し、プロセス応答速度に深刻な影響を与える可能性があります。CPU 使用量を最適化するか、しきい値を迅速に調整してください。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

node_cpu_util_high

cms.host.cpu.utilization

クラスターノードのメモリ使用率 ≥ 85%

クラスター内のノードインスタンスのメモリ使用量がしきい値を超えています。デフォルト値: 85%。

残りのリソースが 15% 未満で、まだ使用中の場合、コンテナーエンジンレイヤーのメモリリソース予約を超えます。詳細については、「ノードリソース予約ポリシー」をご参照ください。このシナリオでは、kubelet は強制的なエビクションを実行します。メモリ使用量を最適化するか、しきい値を迅速に調整してください。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

node_mem_util_high

cms.host.memory.utilization

クラスターノードのディスク使用率 ≥ 85%

クラスター内のノードインスタンスのディスク使用率がしきい値を超えています。デフォルト値: 85%。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

node_disk_util_high

cms.host.disk.utilization

クラスターノードのアウトバウンドインターネット帯域幅使用率 ≥ 85%

クラスター内のノードインスタンスのアウトバウンドインターネット帯域幅使用率がしきい値を超えています。デフォルト値: 85%。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

node_public_net_util_high

cms.host.public.network.utilization

クラスターノードの inode 使用率 ≥ 85%

クラスター内のノードインスタンスの inode 使用率がしきい値を超えています。デフォルト値: 85%。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

node_fs_inode_util_high

cms.host.fs.inode.utilization

クラスターリソース: SLB インスタンスのレイヤー 7 QPS 使用率 ≥ 85%

クラスター内の SLB インスタンスのクエリ/秒 (QPS) がしきい値を超えています。デフォルト値: 85%。

説明

SLB インスタンスは、API サーバーと Ingress に関連付けられているものです。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

slb_qps_util_high

cms.slb.qps.utilization

クラスターリソース: SLB インスタンスのアウトバウンド帯域幅使用率 ≥ 85%

クラスター内の SLB インスタンスのアウトバウンド帯域幅使用率がしきい値を超えています。デフォルト値: 85%。

説明

SLB インスタンスは、API サーバーと Ingress に関連付けられているものです。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

slb_traff_tx_util_high

cms.slb.traffic.tx.utilization

クラスターリソース: SLB インスタンスの最大接続使用率 ≥ 85%

クラスター内の SLB インスタンスの最大接続使用率がしきい値を超えています。デフォルト値: 85%。

説明

SLB インスタンスは、API サーバーと Ingress に関連付けられているものです。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

slb_max_con_util_high

cms.slb.max.connection.utilization

クラスターリソース: SLB リスナーのドロップされた接続数/秒 ≥ 1

クラスター内の SLB インスタンスの 1 秒あたりのドロップされた接続数が、継続的にしきい値を超えています。デフォルト値: 1。

説明

SLB インスタンスは、API サーバーと Ingress に関連付けられているものです。

しきい値の調整方法の詳細については、「アラートルールの設定」をご参照ください。

CloudMonitor

metric-cms

slb_drop_con_high

cms.slb.drop.connection

クラスターノードのディスク領域が不足

クラスター内のノードのディスク領域が不足していることを示す異常なイベント。

Simple Log Service

event

node-disk-pressure

sls.app.ack.node.disk_pressure

クラスターノードのスケジューリングリソースが不足

クラスターに利用可能なスケジューリングリソースがないことを示す異常なイベント。

Simple Log Service

event

node-res-insufficient

sls.app.ack.resource.insufficient

クラスターノードの IP リソースが不足

クラスターの IP リソースが不足していることを示す異常なイベント。

Simple Log Service

event

node-ip-pressure

sls.app.ack.ip.not_enough

ディスク使用量がしきい値を超える

クラスターのディスク使用量がしきい値を超えた異常。クラスターのディスク使用量を確認してください。

Simple Log Service

event

disk_space_press

sls.app.ack.csi.no_enough_disk_space

ACK コントロールプレーン O&M 通知のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ACK クラスタータスク通知

コントロールプレーンの関連計画と変更を記録し、通知します。

Simple Log Service

event

ack-system-event-info

sls.app.ack.system_events.task.info

ACK クラスタータスク失敗通知

クラスター操作が失敗した場合、原因を迅速に調査する必要があります。

Simple Log Service

event

ack-system-event-error

sls.app.ack.system_events.task.error

クラスター自動スケーリングのアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

自動スケーリング: スケールアウト

増加した負荷リクエストを処理するために、ノードが自動的にスケールアウトされます。

Simple Log Service

event

autoscaler-scaleup

sls.app.ack.autoscaler.scaleup_group

自動スケーリング: スケールイン

負荷が減少すると、リソースを節約するためにノードが自動的にスケールインされます。

Simple Log Service

event

autoscaler-scaledown

sls.app.ack.autoscaler.scaledown

自動スケーリング: スケールアウトタイムアウト

スケールアウトのタイムアウトは、リソース不足または不適切なポリシーを示している可能性があります。

Simple Log Service

event

autoscaler-scaleup-timeout

sls.app.ack.autoscaler.scaleup_timeout

自動スケーリング: 空のノードのスケールイン

非アクティブなノードが特定され、リソース使用量を最適化するためにクリーンアップされます。

Simple Log Service

event

autoscaler-scaledown-empty

sls.app.ack.autoscaler.scaledown_empty

自動スケーリング: スケールアウトに失敗

スケールアウトに失敗した場合、原因を直ちに分析し、リソースポリシーを調整する必要があります。

Simple Log Service

event

autoscaler-up-group-failed

sls.app.ack.autoscaler.scaleup_group_failed

自動スケーリング: 不健全なクラスター

自動スケーリングによる不健全なクラスターの状態は、迅速に対処する必要があります。

Simple Log Service

event

autoscaler-cluster-unhealthy

sls.app.ack.autoscaler.cluster_unhealthy

自動スケーリング: 長時間起動に失敗したノードの削除

無効なノードがクリーンアップされ、リソースが再利用されます。

Simple Log Service

event

autoscaler-del-started

sls.app.ack.autoscaler.delete_started_timeout

自動スケーリング: 未登録ノードの削除

冗長なノードが処理され、クラスターリソースが最適化されます。

Simple Log Service

event

autoscaler-del-unregistered

sls.app.ack.autoscaler.delete_unregistered

自動スケーリング: スケールインに失敗

スケールインの失敗は、リソースの無駄や不均一な負荷分散につながる可能性があります。

Simple Log Service

event

autoscaler-scale-down-failed

sls.app.ack.autoscaler.scaledown_failed

自動スケーリング: ノードがドレインされる前に削除される

自動スケーリング操作でノードが削除されると、ノード上で実行されている Pod のエビクションまたは移行に失敗します。

Simple Log Service

event

autoscaler-instance-expired

sls.app.ack.autoscaler.instance_expired

アプリケーションワークロード異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ジョブの実行に失敗

このアラートは、ジョブの実行中に失敗した場合にトリガーされます。

Managed Service for Prometheus

metric-prometheus

job-failed

prom.job.failed

デプロイメント内の利用可能なレプリカの異常なステータス

このアラートは、デプロイメント内の利用可能なレプリカの数が不足している場合にトリガーされ、サービスが利用できなくなるか、部分的に利用できなくなる可能性があります。

Managed Service for Prometheus

metric-prometheus

deployment-rep-err

prom.deployment.replicaError

DaemonSet 内のレプリカステータスの異常

このアラートは、DaemonSet 内の一部のレプリカが異常な状態 (起動失敗やクラッシュなど) にある場合にトリガーされます。これは、ノードの期待される動作やサービスに影響します。

Managed Service for Prometheus

metric-prometheus

daemonset-status-err

prom.daemonset.scheduledError

DaemonSet 内のレプリカスケジューリングの異常

このアラートは、DaemonSet が一部またはすべてのノードを正しくスケジュールできなかった場合にトリガーされます。これは、リソースの制約や不適切なスケジューリングポリシーが原因である可能性があります。

Managed Service for Prometheus

metric-prometheus

daemonset-misscheduled

prom.daemonset.misscheduled

コンテナーレプリカ異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

クラスター内のコンテナーレプリカで OOM が発生

Pod またはその中のプロセスでメモリ不足 (OOM) エラーが発生します。

Simple Log Service

event

pod-oom

sls.app.ack.pod.oom

クラスター内のコンテナーレプリカの起動に失敗

クラスター内の Pod の起動に失敗したことを示すイベント。

Simple Log Service

event

pod-failed

sls.app.ack.pod.failed

Pod ステータスの異常

このアラートは、Pod が不健全な状態 (Pending、Failed、Unknown など) にある場合にトリガーされます。

Managed Service for Prometheus

metric-prometheus

pod-status-err

prom.pod.status.notHealthy

Pod の起動に失敗

このアラートは、Pod が頻繁に起動に失敗し、CrashLoopBackOff 状態または別の失敗状態になった場合にトリガーされます。

Managed Service for Prometheus

metric-prometheus

pod-crashloop

prom.pod.status.crashLooping

ストレージ異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ディスク容量が 20 GiB の制限未満

固定された制限により、20 GiB 未満のディスクをアタッチすることはできません。アタッチされたディスクの容量を確認してください。

Simple Log Service

event

csi_invalid_size

sls.app.ack.csi.invalid_disk_size

サブスクリプションディスクはコンテナーボリュームでサポートされていない

固定された制限により、サブスクリプションディスクをアタッチすることはできません。アタッチされたディスクの課金方法を確認してください。

Simple Log Service

event

csi_not_portable

sls.app.ack.csi.disk_not_portable

プロセスによって使用されているため、マウントポイントのマウント解除に失敗

リソースが完全に解放されていないか、アクティブなプロセスがマウントポイントにアクセスしています。

Simple Log Service

event

csi_device_busy

sls.app.ack.csi.deivce_busy

利用可能なディスクがない

クラスターのストレージにアタッチできる利用可能なディスクがない異常。

Simple Log Service

event

csi_no_ava_disk

sls.app.ack.csi.no_ava_disk

ディスク IOHang

クラスターで IOHang 異常が発生します。

Simple Log Service

event

csi_disk_iohang

sls.app.ack.csi.disk_iohang

ディスクにバインドされた PVC で低速 I/O が発生

クラスターディスクにバインドされた PVC で低速 I/O 異常が発生します。

Simple Log Service

event

csi_latency_high

sls.app.ack.csi.latency_too_high

PersistentVolume ステータスの異常

クラスター内の PV で異常が発生します。

Managed Service for Prometheus

metric-prometheus

pv-failed

prom.pv.failed

ネットワーク異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

VPC に複数のルートテーブルが存在する

これにより、ネットワーク設定が複雑になったり、ルートの競合が発生したりする可能性があります。ネットワーク構造を迅速に最適化する必要があります。

Simple Log Service

event

ccm-vpc-multi-route-err

sls.app.ack.ccm.describe_route_tables_failed

利用可能な SLB インスタンスがない

クラスターが SLB インスタンスを作成できないことを示すイベント。

Simple Log Service

event

slb-no-ava

sls.app.ack.ccm.no_ava_slb

SLB インスタンスの同期に失敗

クラスターが作成された SLB インスタンスの同期に失敗したことを示すイベント。

Simple Log Service

event

slb-sync-err

sls.app.ack.ccm.sync_slb_failed

SLB インスタンスの削除に失敗

クラスターが SLB インスタンスの削除に失敗したことを示すイベント。

Simple Log Service

event

slb-del-err

sls.app.ack.ccm.del_slb_failed

ルートの作成に失敗

クラスターが VPC ネットワークルートの作成に失敗したことを示すイベント。

Simple Log Service

event

route-create-err

sls.app.ack.ccm.create_route_failed

ルートの同期に失敗

クラスターが VPC ネットワークルートの同期に失敗したことを示すイベント。

Simple Log Service

event

route-sync-err

sls.app.ack.ccm.sync_route_failed

無効な Terway リソース

クラスター内の無効な Terway ネットワークリソースを示す異常なイベント。

Simple Log Service

event

terway-invalid-res

sls.app.ack.terway.invalid_resource

Terway が IP アドレスの割り当てに失敗

クラスター内の Terway ネットワークリソースが IP アドレスの割り当てに失敗したことを示す異常なイベント。

Simple Log Service

event

terway-alloc-ip-err

sls.app.ack.terway.alloc_ip_fail

Ingress 帯域幅設定の解析に失敗

クラスター Ingress ネットワークの設定解析エラーを示す異常なイベント。

Simple Log Service

event

terway-parse-err

sls.app.ack.terway.parse_fail

Terway がネットワークリソースの割り当てに失敗

クラスター内の Terway ネットワークリソースの割り当てに失敗したことを示す異常なイベント。

Simple Log Service

event

terway-alloc-res-err

sls.app.ack.terway.allocate_failure

Terway がネットワークリソースの再利用に失敗

クラスター内の Terway ネットワークリソースの再利用に失敗したことを示す異常なイベント。

Simple Log Service

event

terway-dispose-err

sls.app.ack.terway.dispose_failure

Terway 仮想モードの変更

クラスター Terway ネットワークの仮想モードの変更を示すイベント。

Simple Log Service

event

terway-virt-mod-err

sls.app.ack.terway.virtual_mode_change

Terway が Pod IP 設定チェックをトリガー

クラスター Terway ネットワークが Pod IP 設定チェックをトリガーしたことを示すイベント。

Simple Log Service

event

terway-ip-check

sls.app.ack.terway.config_check

Ingress 設定の再読み込みに失敗

クラスター Ingress ネットワーク設定の再読み込みに失敗したことを示す異常なイベント。Ingress 設定が正しいかどうかを確認してください。

Simple Log Service

event

ingress-reload-err

sls.app.ack.ingress.err_reload_nginx

重要な監査操作のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

ユーザーがコンテナーにログインするか、クラスターでコマンドを実行する

これはメンテナンスまたは異常なアクティビティである可能性があります。監査操作は追跡とセキュリティ検出に使用できます。

Simple Log Service

event

audit-at-command

sls.app.k8s.audit.at.command

クラスターノードのスケジューリングステータスが変更される

これはサービスの効率とリソースの負荷に影響します。変更の意図を迅速にフォローアップし、効果を確認する必要があります。

Simple Log Service

event

audit-cordon-switch

sls.app.k8s.audit.at.cordon.uncordon

クラスターからリソースが削除される

リソースの削除は、計画された動作または異常な動作である可能性があります。リスクを防ぐために、操作を監査することをお勧めします。

Simple Log Service

event

audit-resource-delete

sls.app.k8s.audit.at.delete

ノードがドレインされるか、クラスターでエビクションが発生する

これはノードの負荷圧力またはポリシーの実行を反映しています。その必要性と影響を確認する必要があります。

Simple Log Service

event

audit-drain-eviction

sls.app.k8s.audit.at.drain.eviction

ユーザーがインターネットからクラスターにログインする

インターネットからのログインはセキュリティリスクをもたらす可能性があります。ログインとアクセス権限の設定を確認する必要があります。

Simple Log Service

event

audit-internet-login

sls.app.k8s.audit.at.internet.login

クラスター内のノードラベルが更新される

ラベルの更新は、ノードリソースを区別して管理するために使用されます。正確性は O&M の効率に影響します。

Simple Log Service

event

audit-node-label-update

sls.app.k8s.audit.at.label

クラスター内のノードの Taint が更新される

ノードの Taint 設定の変更は、スケジューリングポリシーと Toleration メカニズムに影響します。設定を正しく実行し、レビューする必要があります。

Simple Log Service

event

audit-node-taint-update

sls.app.k8s.audit.at.taint

クラスター内のリソースが変更される

リソース設定のリアルタイム変更は、アプリケーションポリシーの調整を示している可能性があります。ビジネス目標と一致しているかどうかを確認する必要があります。

Simple Log Service

event

audit-resource-update

sls.app.k8s.audit.at.update

セキュリティ異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

セキュリティ検査で高リスク設定が検出される

クラスターのセキュリティ検査で高リスク設定が検出されたことを示すイベント。

Simple Log Service

event

si-c-a-risk

sls.app.ack.si.config_audit_high_risk

クラスター検査異常のアラートルールセット

アラート項目

ルールの説明

アラートソース

Rule_Type

ACK_CR_Rule_Name

SLS_Event_ID

クラスター検査で異常が検出される

自動検査メカニズムが潜在的な異常をキャプチャしました。特定の問題と日常のメンテナンスポリシーを分析する必要があります。

Simple Log Service

event

cis-sched-failed

sls.app.ack.cis.schedule_task_failed

アラートのトラブルシューティングガイド

ノードのディスク使用量がしきい値に達したことによる Pod のエビクション

アラートメッセージ

(combined from similar events): Failed to garbage collect required amount of images. Attempted to free XXXX bytes, but only found 0 bytes eligible to free

現象

Pod のステータスは Evicted です。ノードでディスクプレッシャーが発生しています (The node had condition: [DiskPressure].)。

原因

ノードのディスク使用量がエビクションのしきい値 (デフォルトは 85%) に達すると、kubelet はプレッシャーベースのエビクションと GC を実行して、未使用のイメージファイルを再利用します。このプロセスにより、Pod がエビクションされます。ターゲットノードにログインし、df -h コマンドを実行してディスク使用量を確認できます。

ソリューション

  1. ターゲットノード (containerd コンテナーランタイム環境) にログインし、次のコマンドを実行して未使用のコンテナイメージを削除し、ディスク領域を解放します。

    crictl rmi --prune
  2. ログをクリーンアップするか、ノードディスクのサイズを変更します。

  3. 関連するしきい値を調整します。

    • 必要に応じて kubelet イメージ GC のしきい値を調整して、ノードの高いディスク使用率が原因で発生する Pod のエビクションを減らします。 詳細については、「ノードプールの kubelet 構成をカスタマイズする」をご参照ください。

    • ノードのディスク使用率が 85% 以上に達すると、アラートが通知されます。 ビジネスニーズに基づいて、YAML 構成の node_disk_util_high アラートルールでアラートのしきい値を変更できます。 詳細については、「アラートルールを設定する」をご参照ください。

推奨事項と予防策

  • この問題が頻繁に発生するノードについては、アプリケーションの実際のストレージニーズを評価し、リソースリクエストとノードのディスク容量を適切に計画することをお勧めします。

  • ストレージ使用量を定期的にモニターして、潜在的な脅威を迅速に特定して対処することをお勧めします。詳細については、「ノードストレージダッシュボード」をご参照ください。

Pod の OOMKilling

アラートメッセージ

pod was OOM killed. node:xxx pod:xxx namespace:xxx uuid:xxx

症状

Pod のステータスが異常で、イベントの詳細に PodOOMKilling が含まれています。

ソリューション

Out of Memory (OOM) イベントは、ノードレベルまたはコンテナー cgroup レベルでトリガーされます。

  • 原因:

    • コンテナー cgroup レベルの OOM: Pod の実際のメモリ使用量がメモリ制限を超えています。その後、Pod は Kubernetes cgroup によって強制的に終了させられます。

    • ノードレベルの OOM: これは通常、リソース制限 (リクエスト/制限) のない Pod が多すぎてノードで実行されている場合や、一部のプロセス (Kubernetes によって管理されていない可能性があります) が大量のメモリを消費する場合に発生します。

  • 方法: ターゲットノードにログインし、dmesg -T | grep -i "memory" コマンドを実行します。出力に out_of_memory が含まれている場合、OOM イベントが発生しています。ログ出力に Memory cgroup も含まれている場合、イベントはコンテナー cgroup レベルの OOM です。それ以外の場合、イベントはノードレベルの OOM です。

  • 提案:

OOM イベントの原因とそのソリューションの詳細については、「OOM Killer の原因とソリューション」をご参照ください。

Pod のステータスが CrashLoopBackOff である

Pod 内のプロセスが予期せず終了すると、ACK は Pod の再起動を試みます。複数回再起動しても Pod が望ましい状態に達しない場合、そのステータスは CrashLoopBackOff に変わります。トラブルシューティングを行うには、次のステップに従います。

  1. ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、目的のクラスターを見つけてその名前をクリックします。左側のペインで、[ワークロード] > [Pod] を選択します。

  3. リストで異常な Pod を見つけ、アクション 列の 詳細 をクリックします。

  4. Pod の [イベント] を確認し、異常なイベントの説明を分析します。

  5. Pod の [ログ] を表示します。これには異常なプロセスの原因が記録されている場合があります。

    説明

    Pod が再起動されている場合は、最後のコンテナーが終了した時のログを表示する を選択して、前の Pod のログを表示します。

    コンソールには、最新のログエントリが最大 500 件表示されます。より多くの履歴ログを表示するには、ログ永続化ソリューションを設定して、統一された収集とストレージを行うことをお勧めします。