すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:アラートの管理

最終更新日:Jan 21, 2025

Container Service for Kubernetes (ACK) は、コンテナーのアラートを一元的に設定できるアラート管理機能を提供します。 アラートルールを設定して、サービス例外が発生した場合、または次のメトリックのいずれかがしきい値を超えた場合に通知を受け取ることができます。 クラスターにCustomResourceDefinitions (CRD) をデプロイすることで、クラスターのデフォルトのアラートルールを変更できます。 これにより、クラスターの異常な変更を検出できます。

機能紹介

  • クラスター例外のイベントによってトリガーされるアラート。 イベントデータは、ACKのイベントセンターから同期される。 Simple Log ServiceおよびManaged Service for PrometheusのKubernetesイベントセンター機能を有効にする必要があります。 詳細については、「イベントモニタリング」および「Prometheusのマネージドサービス」をご参照ください。

  • 基本クラスターリソースの主要メトリックがしきい値を超えたときにトリガーされるアラート。 メトリクスはCloudMonitorから同期されます。 詳細については、「基本リソースの監視」をご参照ください。

シナリオ

クラスターO&M

アラートルールセットを設定して、クラスター管理、ストレージ、ネットワーク、エラスティックスケーリングの例外をできるだけ早く検出できます。

  • リソース例外に設定されたアラートルールセット: 基本クラスターリソースの主要なメトリックがしきい値を超えた場合に通知します。 CPU使用率、メモリ使用率、ネットワーク遅延などの主要なメトリックが指定されたしきい値を超えると、アラートがトリガーされます。 アラート通知を受け取った場合は、クラスターの安定性を確保するための対策を講じることができます。

  • クラスター例外のアラートルールセット: ノードまたはコンテナーの例外を通知します。 アラートは、Dockerプロセス例外、ノードプロセス例外、ポッドの起動失敗などのイベントによってトリガーされます。

  • ストレージ例外のアラートルールセット: ストレージの変更と例外を通知します。

  • ネットワーク例外のアラートルールセット: ネットワークの変更と例外を通知します。

  • O&M例外のアラートルールセット: クラスター制御に関連する変更と例外を通知します。

アプリケーション開発

アラートルールを設定して、クラスター内の実行中のアプリケーションの例外と異常なメトリックを通知することができます。 たとえば、ポッドレプリカの例外に関する通知を受け取るようにアラートルールを設定したり、デプロイのCPUとメモリの使用率がしきい値を超えた場合に通知したりできます。 デフォルトのアラートルールテンプレートを使用して、クラスター内のポッドレプリカの例外に関する通知を受信するアラートをすばやく設定できます。 たとえば、ポッド例外のアラートルールセットを設定および有効にして、アプリケーションのポッドで例外を通知することができます。

アプリケーション管理

アプリケーションのライフサイクル全体で発生する問題を通知するには、アプリケーションの正常性、容量計画、クラスターの安定性、例外、およびエラーに注意することをお勧めします。 重要なイベントに設定されたアラートルールセットを設定および有効にして、クラスター内の警告とエラーを通知することができます。 リソース例外のアラートルールセットを設定および有効にして、クラスターでの異常なリソース使用量を通知し、容量計画を最適化できます。

マルチクラスター管理

複数のクラスターを管理する場合、クラスター間でアラートルールを設定して同期することは複雑なタスクになる場合があります。 ACKを使用すると、クラスターにCRDをデプロイしてアラートルールを管理できます。 同じCRDを設定して、複数のクラスター間でアラートルールを同期できます。

ステップ1: アラート管理の有効化

アラート管理は、ACK管理クラスターACK専用クラスターに対してのみ有効にできます。

ACK管理クラスター

クラスター作成時にPrometheusのマネージドサービスを有効にする

[コンポーネント設定] ウィザードページで、[アラート] の右側にある [デフォルトのアラートルールテンプレートを使用] を選択し、連絡先グループを選択します。 詳細については、「ACK管理クラスターの作成」をご参照ください。

クラスターが作成されると、クラスターのデフォルトのアラートルールが自動的に有効になり、デフォルトのアラートルールがトリガーされると、デフォルトの連絡先グループに通知が送信されます。 アラート送信先またはアラート送信先グループの情報を変更できます。 詳細については、「アラート送信先またはアラート送信先グループの変更」をご参照ください。

既存のクラスターに対するPrometheusのマネージドサービスの有効化

既存のクラスターに対してManaged Service for Prometheusを有効にするには、次の手順を実行します。

  1. ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターの名前をクリックします。 左側のウィンドウで、[操作] > [アラート] を選択します。

  3. [アラート] ページで、画面の指示に従って必要なコンポーネントをインストールおよび更新します。

    ACKコンソールは、クラスターが次の条件を満たしているかどうかを自動的にチェックし、必要なコンポーネントをアクティブ化、インストール、および更新する方法について説明します。

    すべての条件が満たされていない場合は、画面の指示に従って必要なコンポーネントをインストールまたは更新します。

    • Simple Log Serviceが有効化されています。 Log Serviceが有効化されていない場合は、log Serviceコンソールにログインし、画面の指示に従ってサービスを有効化します。

      説明

      Simple Log Serviceの課金ルールの詳細については、「課金機能の課金項目」をご参照ください。

    • Event Centerがインストールされています。 詳細については、「イベントモニタリング」をご参照ください。

    • alicloud-monitor-controllerコンポーネントが最新バージョンに更新されました。 詳細については、「alicloud-monitor-controller」をご参照ください。

  4. 必要なコンポーネントをインストールして更新した後、[アラート] ページでアラートルールを設定できます。

    • [アラートルール] タブで、アラートルールセットを選択し、[ステータス] をオンにしてアラートルールセットを有効にします。 [連絡先の変更] をクリックすると、アラートの送信先の連絡先グループを指定できます。

      • 既定では、ACKは例外とメトリックに基づいてアラートを生成するために使用できるアラートルールテンプレートを提供します。

      • アラートルールは、いくつかのアラートルールセットに分類される。 アラートルールセットを有効にし、アラートルールセットを無効にし、アラートルールセットに複数のアラート連絡先グループを設定できます。

      • アラートルールセットには、複数のアラートルールが含まれています。 各アラートルールは、アラートアイテムに対応する。 YAMLファイルを作成して、クラスターに複数のアラートルールセットを設定できます。 YAMLファイルを変更してアラートルールを更新することもできます。

      • YAMLファイルを使用してアラートルールを設定する方法の詳細については、「手順2: CRDを使用してアラートルールを設定する」をご参照ください。 デフォルトのアラートルールテンプレートの詳細については、「デフォルトのアラートルールテンプレート」をご参照ください。

    • 次の表に、[アラート] ページのタブを示します。

      タブ

      説明

      アラート履歴

      最大100の履歴アラートを表示できます。 アラートを選択し、[アラートルール] 列のリンクをクリックすると、モニタリングシステムのルールの詳細を表示できます。 [詳細] をクリックすると、アラートがトリガーされたリソースページに移動できます。 アラートは、例外または異常なメトリックによってトリガされ得る。

      アラート連絡先

      アラート連絡先を作成、編集、または削除できます。

      リソース例外のアラートルールセットには、基本ノードリソースのアラートルールが含まれます。 アラート連絡先が基本クラスターリソースに関するアラートを受信する前に、CloudMonitorコンソールで連絡先の携帯電話番号とメールアドレスを確認する必要があります。 CloudMonitorコンソールでアラート送信先に関する情報を表示および更新できます。 検証の有効期限が切れている場合は、CloudMonitorコンソールで連絡先を削除し、ACKコンソールでアラート連絡先ページを更新します。

      アラート連絡先グループ

      アラート連絡先グループを作成、編集、または削除できます。 アラート連絡先グループが存在しない場合、ACKコンソールは、登録時に指定した情報に基づいて、デフォルトのアラート連絡先グループを自動的に作成します。

ACK専用クラスター

アラート管理を有効にし、ACK専用クラスターでデフォルトのアラートルールを使用する前に、クラスターのワーカーリソースアクセス管理 (RAM) ロールに必要な権限を付与する必要があります。

説明

システムは、Simple Log Serviceのアラート機能に関連するリソースにアクセスする権限をACK管理クラスターに自動的に付与します。

1. ワーカーRAMロールに権限を付与する

  1. ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターの名前をクリックします。 左側のウィンドウで、[クラスター情報] をクリックします。

  3. [クラスター情報] ページで、[クラスターリソース] セクションの [Worker RAMロール] の右側にあるロール名をコピーし、名前をクリックしてRAMコンソールのロールの詳細ページに移動します。 RAMコンソールでロールに権限を付与できます。

    1. 次のコードブロックに基づいてカスタムRAMポリシーを作成します。 詳細については、「JSONタブでカスタムポリシーを作成する」をご参照ください。

      {
                  "Action": [
                      "log:*",
                      "arms:*",
                      "cms:*",
                      "cs:UpdateContactGroup"
                  ],
                  "Resource": [
                      "*"
                  ],
                  "Effect": "Allow"
      }
    2. [ロール] ページで、クラスターのワーカーRAMロールを見つけ、前述のカスタムポリシーをロールにアタッチします。 詳細については、「方法1: [ロール] ページの [権限の付与] をクリックしてRAMロールに権限を付与する」をご参照ください。

  4. コンポーネントログを確認して、権限が付与されていることを確認します。

    1. 詳細ページの左側のナビゲーションウィンドウで、ワークロード > デプロイメント.

    2. セット名前空間kube-systemに移動し、[デプロイメント] リストでalicloud-monitor-controllerを見つけ、名前列を作成します。

    3. をクリックし、ログタブをクリックし、認証が成功したことを示す情報がログに含まれているかどうかを確認します。

2. アラート管理を有効にし、デフォルトのアラートルールを設定します。

  1. 左側のナビゲーションウィンドウで、[操作] > [アラート] を選択します。

  2. [アラート] ページで、次の操作を実行して、デフォルトのアラートルールを設定します。

    • [アラートルール] タブで、アラートルールセットを選択し、[ステータス] をオンにしてアラートルールセットを有効にします。 [連絡先の変更] をクリックすると、アラートの送信先の連絡先グループを指定できます。

      • 既定では、ACKは例外とメトリックに基づいてアラートを生成するために使用できるアラートルールテンプレートを提供します。

      • アラートルールは、いくつかのアラートルールセットに分類される。 アラートルールセットを有効にし、アラートルールセットを無効にし、アラートルールセットに複数のアラート連絡先グループを設定できます。

      • アラートルールセットには、複数のアラートルールが含まれています。 各アラートルールは、アラートアイテムに対応する。 YAMLファイルを作成して、クラスターに複数のアラートルールセットを設定できます。 YAMLファイルを変更してアラートルールを更新することもできます。

      • YAMLファイルを使用してアラートルールを設定する方法の詳細については、「手順2: CRDを使用してアラートルールを設定する」をご参照ください。 デフォルトのアラートルールテンプレートの詳細については、「デフォルトのアラートルールテンプレート」をご参照ください。

    • 次の表に、[アラート] ページのタブを示します。

      タブ

      説明

      アラート履歴

      最大100の履歴アラートを表示できます。 アラートを選択し、[アラートルール] 列のリンクをクリックすると、モニタリングシステムのルールの詳細を表示できます。 [詳細] をクリックすると、アラートがトリガーされたリソースページに移動できます。 アラートは、例外または異常なメトリックによってトリガされ得る。

      アラート連絡先

      アラート連絡先を作成、編集、または削除できます。

      リソース例外のアラートルールセットには、基本ノードリソースのアラートルールが含まれます。 アラート連絡先が基本クラスターリソースに関するアラートを受信する前に、CloudMonitorコンソールで連絡先の携帯電話番号とメールアドレスを確認する必要があります。 CloudMonitorコンソールでアラート送信先に関する情報を表示および更新できます。 検証の有効期限が切れている場合は、CloudMonitorコンソールで連絡先を削除し、ACKコンソールでアラート連絡先ページを更新します。

      アラート連絡先グループ

      アラート連絡先グループを作成、編集、または削除できます。 アラート連絡先グループが存在しない場合、ACKコンソールは、登録時に指定した情報に基づいて、デフォルトのアラート連絡先グループを自動的に作成します。

手順2: CRDを使用したアラートルールの設定

アラート機能が有効になると、システムは自動的にkube-system名前空間にAckAlertRuleオブジェクトを作成します。 AckAlertRuleオブジェクトには、デフォルトのアラートルールテンプレートが含まれます。 AckAlertRuleオブジェクトを変更して、ビジネス要件に基づいてデフォルトのアラートルールを変更します。

デフォルトのアラートルールテンプレート

次の表に、デフォルトのアラートルールテンプレートのアラートルールを示します。

クリックして、デフォルトのアラートルールテンプレートでアラートルールを表示します

アラートルールセット

アラートルール

説明

Rule_タイプ

ACK_CR_Rule_Name

SLS_Event_ID

クラスター内の重要なイベントに設定されたアラートルール。

エラー

クラスターでエラーが発生すると、アラートがトリガーされます。

event

エラーイベント

sls.app.ack. エラー

警告

クラスターで警告が発生すると、無視できる警告を除き、警告がトリガーされます。

event

warn-イベント

sls.app.ack.warn

クラスター例外のアラートルールセット

ノードのDockerプロセス例外

ノードでdockerd例外またはcontainerd例外が発生すると、アラートがトリガーされます。

event

docker-hang

sls.app.ack.doc ker.hang

クラスターでの回避

ポッドが退去すると、アラートがトリガーされます。

event

eviction-イベント

sls.app.ack.eviction

GPU Xidエラー

GPU Xidエラーが発生すると、アラートがトリガーされます。

event

gpu-xid-エラー

sls.app.ack.gpu.xid_error

ノードがスケジュール不可状態に変更

ノードのステータスがスケジュール不可に変わると、アラートがトリガーされます。

event

ノードダウン

sls.app.ack.node.down

ノードの再起動

ノードが再起動すると、アラートがトリガーされます。

event

node-restart

sls.app.ack.node.restart

ノードでのNTPサービス障害

ネットワークタイムプロトコル (NTP) サービスが失敗すると、アラートがトリガーされます。

event

ノード-ntp-down

sls.app.ack.ntp.down

ノードのPLEGエラー

ノードでLifecycle Event Generator (PLEG) エラーが発生すると、アラートがトリガーされます。

event

node-pleg-エラー

sls.app.ack.node.pleg_error

ノードのプロセスエラー

ノードでプロセスエラーが発生すると、アラートがトリガーされます。

event

ps-ハング

sls.app.ack.ps.hang

リソース例外のアラートルールセット

ノード-CPU使用率 ≥ 85%

ノードのCPU使用率がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

使用可能なCPUリソースの割合が15% 未満の場合、コンポーネント用に予約されたCPUリソースが不足する可能性があります。 詳細については、「リソース予約ポリシー」をご参照ください。 その結果、CPUスロットリングは頻繁にトリガされ、プロセスはゆっくりと応答する。 CPU使用率を最適化するか、できるだけ早い機会にしきい値を調整することを推奨します。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

node_cpu_util_high

cms.host.cpu. の使用

ノード-メモリ使用量 ≥ 85%

ノードのメモリ使用量がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

使用可能なメモリリソースの割合が15% 未満の場合、コンポーネント用に予約されたメモリリソースが不足する可能性があります。 詳細については、「リソース予約ポリシー」をご参照ください。 このシナリオでは、kubeletはノードからポッドを強制的に削除します。 メモリ使用量を最適化するか、できるだけ早い機会にしきい値を調整することを推奨します。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

node_mem_util_high

cms.host.memory. の使用

ノード-ディスク使用量 ≥ 85%

ノードのディスク使用量がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

node_disk_util_high

cms.host.disk. の使用

ノード-アウトバウンドパブリック帯域幅の使用量 ≥ 85%

ノードのアウトバウンドパブリック帯域幅の使用率がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

node_public_net_util_high

cms.host.public.net work.utilization

ノード-Inode使用量 ≥ 85%

ノードのinode使用量がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

node_fs_inode_util_high

cms.host.fs.inode. の使用

リソース-SLBインスタンスの最大接続の使用率 ≧ 85%

Server Load Balancer (SLB) インスタンスの最大接続数の使用率がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

説明

このルールは、Kubernetes APIサーバーおよびIngress用に作成されたすべてのSLBインスタンスに適用されます。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

slb_qps_util_high

cms.slb.qps. の使用

リソース-SLBアウトバウンド帯域幅の使用量 ≥ 85%

SLBインスタンスのアウトバウンド帯域幅の使用率がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

説明

このルールは、Kubernetes APIサーバーおよびIngress用に作成されたすべてのSLBインスタンスに適用されます。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

slb_traff_tx_util_high

cms.slb.traffic.tx.utilization

リソース-SLBインスタンスの最大接続の使用率 ≧ 85%

SLBインスタンスの最大接続数の使用率がしきい値を超えると、アラートがトリガーされます。 デフォルトのしきい値は85% です。

説明

このルールは、Kubernetes APIサーバーおよびIngress用に作成されたすべてのSLBインスタンスに適用されます。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

slb_max_con_util_high

cms.slb.max.connection.utilization

リソース-SLBインスタンスのリスナーの1秒あたりの接続ドロップ数は1以上のまま

SLBインスタンスのリスナーによって1秒あたりにドロップされた接続数が1以上のままである場合、アラートがトリガーされます。 デフォルトのしきい値は1です。

説明

このルールは、Kubernetes APIサーバーおよびIngress用に作成されたすべてのSLBインスタンスに適用されます。

しきい値を調整する方法の詳細については、「例-CRDを使用した基本的なクラスターリソースのアラートしきい値の変更」をご参照ください。

メトリック-cms

slb_drop_con_high

cms.slb.drop.connection

ノードの過剰なファイルハンドル

ノードに過剰なファイルハンドルが存在すると、アラートがトリガーされます。

event

ノード-fd-圧力

sls.app.ack.node.fd_pressure

ノードディスク容量不足

ノードのディスク容量が不足すると、アラートがトリガーされます。

event

ノードディスク圧力

sls.app.ack.node.disk_pressure

ノードの過剰なプロセス

ノードで過剰なプロセスが実行されると、アラートがトリガーされます。

event

ノード-pid-圧力

sls.app.ack.node.pid_pressure

スケジューリングに不十分なノードリソース

ノードのスケジューリングに十分なリソースがない場合、アラートがトリガーされます。

event

ノード-res-不十分

sls.app.ack.resource. insufficious

ノードIPアドレス不足

ノードのIPアドレスが不足すると、アラートがトリガーされます。

event

ノード-ip-pressure

sls.app.ack.ip.not_enough

ポッド例外のアラートルールセット

ポッドOOMエラー

ポッドでメモリ不足 (OOM) エラーが発生すると、アラートがトリガーされます。

event

ポッド-oom

sls.app.ack.pod.oom

ポッドの再起動の失敗

ポッドの再起動に失敗すると、アラートがトリガーされます。

event

ポッドに失敗

sls.app.ack.pod.failed

イメージプルの失敗

イメージのプルに失敗すると、アラートがトリガーされます。

event

イメージ-pull-back-off

sls.app.ack.image.pull_back_off

O&M例外のアラートルールセット

利用可能なSLBインスタンスがありません

SLBインスタンスの作成に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

slb-no-ava

sls.app.ack.ccm.no_ava_slb

SLBインスタンスの更新の失敗

SLBインスタンスの更新に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

slb-sync-err

sls.app.ack.ccm.sync_slb_failed

SLBインスタンスの削除失敗

SLBインスタンスの削除に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

slb-del-err

sls.app.ack.ccm.de l_slb_failed

ノード削除の失敗

ノードの削除に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

ノード-del-err

sls.app.ack.ccm.de l_node_failed

ノードの追加失敗

ノードのクラスターへの追加に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

ノード-add-err

sls.app.ack.ccm.add_node_failed

ルート作成の失敗

クラスターが仮想プライベートクラウド (VPC) でルートの作成に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

route-create-err

sls.app.ack.ccm.create_route_failed

ルート更新の失敗

クラスターがVPCのルートの更新に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

route-sync-err

sls.app.ack.ccm.sync_route_failed

マネージドノードプールでのコマンド実行の失敗

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-run-cmd-err

sls.app.ack.nlc.ru n_command_fail

管理対象ノードプールでのノード削除の失敗

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-empty-cmd

sls.app.ack.nlc.empty_task_cmd

マネージドノードプールで未実装のURLモード

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-url-m-unimp

sls.app.ack.nlc.url_mode_unimpl

マネージドノードプールでの未知の修復操作

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-opt-no-found

sls.app.ack.nlc.op_not_found

マネージドノードプールでのノードのドレインと削除の失敗

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-des-node-err

sls.app.ack.nlc.de stroy_node_fail

マネージドノードプールでのノードのドレイン障害

管理対象ノードプール内のノードのドレインに失敗した場合、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-drain-node-err

sls.app.ack.nlc.drain_node_fail

マネージドノードプールでのECS再起動タイムアウト

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-restart-ecs-wait

sls.app.ack.nlc.restart_ecs_wait_fail

マネージドノードプールでのECS再起動の失敗

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-restart-ecs-err

sls.app.ack.nlc.restart_ecs_fail

マネージドノードプールでのECSリセットの失敗

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-reset-ecs-err

sls.app.ack.nlc.reset_ecs_fail

管理対象ノードプールでの自動修復タスクの失敗

ノードプールエラーが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

nlc-sel-repair-err

sls.app.ack.nlc.repair_fail

ネットワーク例外のアラートルールセット

無効なTerwayリソース

Terwayリソースが無効な場合、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

terway-invalid-res

sls.app.ack.terway.invalid_resource

TerwayのIP割り当ての失敗

TerwayモードでIPアドレスの割り当てに失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

terway-alloc-ip-err

sls.app.ack.terway.alloc_ip_fail

Ingress帯域幅の構成解析の失敗

Ingressの帯域幅設定の解析に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

terway-parse-err

sls.app.ack.terway.parse_fail

Terwayのネットワークリソース割り当ての失敗

ネットワークリソースがTerwayモードで割り当てられない場合、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

terway-alloc-res-err

sls.app.ack.terway.allocate_failure

Terwayのネットワークリソース回収障害

ネットワークリソースがTerwayモードで再利用に失敗すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

terway-dispose-err

sls.app.ack.terway.dispose_failure

Terway仮想モードの変更

Terway仮想モードが変更されると、アラートがトリガーされます。

event

terway-virt-mod-err

sls.app.ack.terway.virtual_mode_change

Terwayによって実行されるポッドIPチェック

ポッドIPがTerwayモードでチェックされると、アラートがトリガーされます。

event

terway-ip-チェック

sls.app.ack.terway.config_check

Ingress設定のリロードの失敗

Ingressの設定のリロードに失敗すると、アラートがトリガーされます。 この場合は、Ingress設定が有効かどうかを確認してください。

event

ingress-reload-err

sls.app.ack.ingress.err_reload_nginx

ストレージ例外のアラートルールセット

クラウドディスクサイズが20 GiB未満

ACKでは、20 GiB未満のディスクをマウントすることはできません。 クラスターに接続されているディスクのサイズを確認できます。

event

csi_invalid_size

sls.app.ack.csi.invalid_disk_size

サブスクリプションクラウドディスクをマウントできません

ACKでは、サブスクリプションディスクをマウントできません。 クラスターに接続されているディスクの課金方法を確認できます。

event

csi_not_portable

sls.app.ack.csi.disk_not_portable

マウントターゲットが使用されているため、マウントターゲットのアンマウントに失敗する

マウントターゲットが使用中であるため、アンマウントに失敗するとアラートがトリガーされます。

event

csi_device_busy

sls.app.ack.csi.de ivce_busy

利用可能なクラウドディスクがありません

使用可能なディスクがない場合、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

csi_no_ava_disk

sls.app.ack.csi.no_ava_disk

クラウドディスクのI/Oハング

ディスクでI/Oハングが発生すると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

csi_disk_iohang

sls.app.ack.csi.disk_iohang

クラウドディスクのマウントに使用されるPVCのI/O速度が遅い

永続ボリューム要求 (PVC) を使用してマウントされたディスクのI/Oが遅い場合、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

csi_latency_high

sls.app.ack.csi.latency_too_high

ディスク使用量がしきい値を超えています

ディスクの使用量が指定されたしきい値を超えると、アラートがトリガーされます。 クラスターにマウントされているディスクの使用状況を確認できます。

event

disk_space_press

sls.app.ack.csi.no_enough_disk_space

クラスターセキュリティイベントのアラートルールセット

検査で検出されたリスクの高い構成

クラスター検査中にリスクの高い設定が検出されると、アラートがトリガーされます。 この場合、

チケットを起票し、ACK技術チームにお問い合わせください。

event

si-c-a-リスク

sls.app.ack.si.config_audit_high_risk

アラートルールの設定

  1. ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターの名前をクリックします。 左側のウィンドウで、[操作] > [アラート] を選択します。

  3. [アラートルール] タブの右上隅にある [アラートルールの設定] をクリックします。 アラートルールパネルで、[操作] 列の [YAML] をクリックして、AckAlertRuleオブジェクトの設定を表示します。

  4. デフォルトのアラートルールテンプレートの前述の説明に基づいて、YAMLファイルを変更できます。

    例:

    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        # The following code is a sample alert rule based on cluster events. 
        - name: pod-exceptions                             # The name of the alert rule set. This parameter corresponds to the Group_Name field in the alert rule template. 
          rules:
            - name: pod-oom                                # The name of the alert rule. 
              type: event                                  # The type of the alert rule, which corresponds to the Rule_Type parameter. Valid values: event and metric-cms. 
              expression: sls.app.ack.pod.oom              # The alert rule expression. If you set the rule type to event, the expression is set to the value of Rule_Expression_Id in the default alert rule template. 
              enable: enable                               # The status of the alert rule. Valid values: enable and disable. 
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        # The following code is a sample alert rule for basic cluster resources. 
        - name: res-exceptions                              # The name of the alert rule set. This parameter corresponds to the Group_Name field in the alert rule template. 
          rules:
            - name: node_cpu_util_high                      # The name of the alert rule. 
              type: metric-cms                              # The type of the alert rule, which corresponds to the Rule_Type parameter. Valid values: event and metric-cms. 
              expression: cms.host.cpu.utilization          # The alert rule expression. If you set the rule type to event, the expression is set to the value of Rule_Expression_Id in the default alert rule template. 
              contactGroups:                                # The contact group that is associated with the alert rule. The contacts created by an Alibaba Cloud account are shared by all clusters within the account. 
              enable: enable                                # The status of the alert rule. Valid values: enable and disable. 
              thresholds:                                   # The alert threshold. For more information, see the "Modify the alert threshold for basic cluster resources" section of this topic.             
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '1'

例-CRDを使用した基本クラスターリソースのアラートしきい値の変更

リソース例外に設定されたアラートルールセットのルールタイプはmetric-cmsです。これは、ルールがCloudMonitorから同期されていることを示します。 次の例は、Node - CPU使用率ルールが属するアラートルールセット用に作成されたCRDにthresholdパラメーターを追加する方法を示しています。 このパラメーターを使用して、アラートのしきい値、アラートがトリガーされる前にCPU使用率がしきい値を超えた回数、およびアラートがトリガーされた後の無音期間を設定できます。

apiVersion: alert.alibabacloud.com/v1beta1
kind: AckAlertRule
metadata:
  name: default
spec:
  groups:
    # The following code is a sample alert rule for basic cluster resources. 
    - name: res-exceptions                                        # The name of the alert rule set. This parameter corresponds to the Group_Name field in the alert rule template. 
      rules:
        - name: node_cpu_util_high                                # The name of the alert rule. 
          type: metric-cms                                        # The type of the alert rule. Valid values: event and metric-cms. 
          expression: cms.host.cpu.utilization                    # The alert rule expression. If you set the rule type to event, the expression is set to the value of Rule_Expression_Id in the default alert rule template. 
          contactGroups:                                          # The contact group associated with the alert rule. You can add contact groups in the ACK console. The contacts created by an Alibaba Cloud account are shared by all clusters within the account. 
          enable: enable                                          # The status of the alert rule. Valid values: enable and disable. 
          thresholds:                                             # The alert threshold. For more information, see Configure alert rules by using CRDs. 
            - key: CMS_ESCALATIONS_CRITICAL_Threshold
              unit: percent
              value: '1'  
            - key: CMS_ESCALATIONS_CRITICAL_Times
              value: '3'  
            - key: CMS_RULE_SILENCE_SEC
              value: '900'  

パラメーター

説明

デフォルト

CMS_ESCALATIONS_CRITICAL_しきい値

アラートしきい値。

  • unit: しきい値の単位です。 有効な値: percentcountqps

  • value: しきい値の値。

This parameter is required. このパラメーターを空のままにすると、変更は有効にならず、アラートルールは無効になります。

デフォルト値は、デフォルトのアラートルールテンプレートで指定されたデフォルト値と同じです。

CMS_ESCALATIONS_CRITICAL_タイムズ

アラートがトリガーされるまでにアラートのしきい値を超えた回数。

このパラメーターはオプションです。 このパラメーターを空のままにすると、デフォルト値が使用されます。

3

CMS_RULE_SILENCE_SEC

アラートがトリガーされた後の無音期間。 このパラメーターは、頻繁なアラートを防ぐために使用します。 単位は秒です。

このパラメーターはオプションです。 このパラメーターを空のままにすると、デフォルト値が使用されます。

900

よくある質問

アラートルールの更新に失敗し、次のエラーメッセージが返された場合はどうすればよいですか: プロジェクトは存在しません: k8s-log-xxx?

問題:

システムがアラートルールを更新すると、次のエラーメッセージが返されます。プロジェクトは存在しません: k8s-log-xxx

原因:

クラスターのSimple Log Serviceにイベントセンターを作成していません。

解決策:

  1. Simple Log Serviceコンソールに移動します。 プロジェクト数がクォータ制限に達しているかどうかを確認します。 クォータ制限に達した場合は、過剰なプロジェクトまたはを削除します。

    チケットを起票し、クォータの増加を申請します。 Simple Log Serviceプロジェクトを削除する方法の詳細については、「プロジェクトの管理」をご参照ください。

  2. ack-node-problem-detectorを再インストールします。

    1. ACKコンソールのクラスター詳細ページの左側のナビゲーションウィンドウで、[アプリケーション] > [ヘルム] を選択します。

    2. YAMLファイルを使用してack-node-problem-detectorを再インストールする場合は、次の手順を実行してack-node-problem-detectorのYAMLテンプレートのコピーを取得します。

      Helmページで、ack-node-problem-detectorを見つけ、[操作] 列の [更新] をクリックします。 ack-node-problem-detectorが更新されたら、[操作] 列の [詳細の表示] をクリックします。 ack-node-problem-detectorの詳細ページで、リソースを選択し、[YAMLで表示] をクリックして、YAMLコンテンツをオンプレミスマシンにコピーします。 各リソースに対して同じ操作を実行して、YAMLテンプレートのコピーを取得します。

    3. Helmページで、ack-node-problem-detectorを選択し、[操作] 列の [削除] をクリックします。

    4. 詳細ページの左側のナビゲーションウィンドウで、[操作] > [アドオン] を選択します。

    5. [ログとモニタリング] タブをクリックし、ack-node-problem-detectorを見つけて、[インストール] をクリックします。

      [メモ] メッセージで、プラグインのバージョンを確認し、[OK] をクリックします。 ack-node-problem-detectorがインストールされた後、単語「installed」とバージョン情報がack-node-problem-detectorセクションに表示されます。

連絡先グループがアラートルールをサブスクライブしていないためにアラートルールの更新に失敗した場合はどうすればよいですか。

問題:

システムがアラートルールを更新すると、次のエラーメッセージが返されます。このルールにはxxx連絡先グループ参照がありません

原因:

アラートルールをサブスクライブする連絡先グループはありません。

解決策:

  1. 連絡先グループを作成し、連絡先を追加します。

  2. アラートルールを見つけて、[連絡先の変更] をクリックします。 [連絡先の変更] パネルで、サブスクライバーとして作成した連絡先グループを追加します。