Network Intelligence Service (NIS)は、イベントに基づいてリソースを監視できるイベントセンターを提供します。潜在的なリスクにさらされているリソースを表示し、特定のイベントのアラートルールを設定できます。このようにして、これらのイベントにできるだけ早く対処し、ビジネスの中断を防ぐことができます。
シナリオ
Alibaba Cloudは、クラウドネットワークリソースに関する情報を記録し、O&Mタスクのステータス、リソースの例外、リソースのステータス変更など、ユーザーに通知するためのNISイベントを定義しています。
リスクと例外の通知
リソースの可用性またはパフォーマンスの問題に関連するイベントが発生すると、Alibaba CloudはNISコンソールのイベントセンターにイベントをプッシュします。このようなイベントには、過剰なリソース使用によるインスタンスのパフォーマンス低下、インターネット接続でのパケット損失によるビジネスの利用不能、インスタンスのサブスクリプションの期限切れなどが含まれます。ビジネスの中断が発生した場合に備えて、これらのイベントにできるだけ早く対処することをお勧めします。
自動化されたO&M
Alibaba Cloudは、NISコンソールに表示されるイベントのステータスを定義しています。これにより、システムO&Mタスクのステータスを理解できます。新しいイベントとイベントのステータス変更はCloudMonitorに報告され、ビジネス要件を満たすイベント駆動型の自動O&Mシステムを構築できます。
制限
廃止されたインスタンスファミリについては、イベントは収集されません。詳細については、各Alibaba Cloudサービスの販売終了のお知らせをご覧ください。
基本情報
イベントタイプ
Alibaba Cloudは、クラウドネットワークリソースに関する情報を記録し、ユーザーに通知するためのイベントを定義しています。イベントは、原因に基づいて次の表に示すタイプに分類されます。
カテゴリ | 説明 | 例 |
問題イベント | ビジネスに影響を与え、7日間処理中状態になっている例外。 |
|
リスクイベント | ビジネスに影響を与える可能性があり、7日間処理中状態になっている例外。 |
|
イベントレベル
Alibaba Cloudは、インスタンスの動作への影響に基づいて、イベントに次のレベルを定義しています。
クリティカル:このレベルのイベントはインスタンスの利用不能につながる可能性があり、できるだけ早く対処する必要があります。
警告:このレベルのイベントはビジネスに影響を与えています。これらのイベントに細心の注意を払うか、適切なタイミングで対処する必要があります。
情報:このレベルのイベントに注意を払うかどうかを決定できます。
イベントのコード、名前、説明、および対処方法の提案については、このトピックのイベントセクションをご覧ください。
イベント
このセクションでは、NISでサポートされているイベントの概要と、これらのイベントの対処方法に関する提案を示します。
問題イベントは、共有リソースのClassic Load Balancer (CLB)インスタンスには適用されません。
問題イベント
イベントコード | イベント名 | イベントレベル | CloudMonitorでのイベント名 | イベントの説明と影響 | アラートルール | ユーザーへの提案 |
インターネット向けインスタンス | ||||||
problem-internetBandwidthOverlimit | 帯域幅の使用超過によるパケット損失 | クリティカル | problem-internetBandwidthOverLimit | インターネット向けインスタンスの帯域幅がピーク帯域幅を超えたため、パケットが損失しています。 インターネットデータ転送を生成するインスタンスは、Elastic IP Address (EIP)、帯域幅プラン、CLBインスタンスなど、インターネット向けインスタンスと呼ばれます。 | クリティカル:過去10分以内に帯域幅の使用量がピーク帯域幅を頻繁に超えており、パケットが損失しています。 | ピーク帯域幅を増やしてください。 |
インターネットNATゲートウェイ | ||||||
problem-nat-sessionOverLimit | NATセッションの超過による接続切断 | クリティカル | problem-nat-sessionOverLimit | インターネットNATゲートウェイのセッション数が上限を超えています。その結果、新しいセッションが失敗し、1秒あたり100を超えるパケットが損失しています。 | クリティカル:過去10分以内に同時セッション数が上限を超えており、1秒あたり100を超えるパケットが損失しています。 | インターネットNATゲートウェイをアップグレードするか、複数のインターネットNATゲートウェイを作成してください。詳細については、NATゲートウェイクォータの管理とインターネットNATゲートウェイの作成と管理をご覧ください。 |
problem-nat-sessionNewOverLimit | 新しいNATセッションの超過による接続切断 | クリティカル | problem-nat-sessionNewOverLimit | インターネットNATゲートウェイの1秒あたりの新しいセッション数が上限を超えています。その結果、新しいセッションが失敗し、1秒あたり100を超えるパケットが損失しています。 | クリティカル:過去10分以内に新しいセッション数が上限を超えており、1秒あたり100を超えるパケットが損失しています。 | |
problem-nat-portAllocationError | SNATソースポートの割り当て失敗 | クリティカル | problem-nat-portAllocationError | インターネットNATゲートウェイにバインドされているEIPが不足しています。その結果、ソースポートの割り当てに失敗し、1秒あたり10を超えるパケットが損失しています。 説明 このイベントのサブスクリプションポリシーを設定することはできません。 | クリティカル:過去10分以内にソースポートの割り当てに頻繁に失敗しており、1秒あたり10を超えるパケットが損失しています。 | インターネットNATゲートウェイにバインドされているEIPの数を増やしてください。詳細については、インターネットNATゲートウェイの作成と管理をご覧ください。 |
problem-nat-datapathUnavailable | NATゲートウェイのデータパスの利用不能 | クリティカル | problem-nat-datapathUnavailable | NATゲートウェイのデータパスが利用できません。過去10分以内のNATゲートウェイの可用性は0%です。これは、NATゲートウェイのすべてのトラフィックが影響を受けており、NATゲートウェイが予期したとおりに動作していないことを示しています。これは、Alibaba Cloud側のイベントが原因である可能性があります。Alibaba Cloudのエンジニアはサービスの復旧を試みています。 | クリティカル:過去10分以内のNATゲートウェイの可用性は0%です。 | 高可用性を実現するために複数のNATゲートウェイをデプロイしている場合は、トラフィックを別のNATゲートウェイに切り替えることをお勧めします。詳細については、高可用性を実現するための複数のNATゲートウェイのデプロイをご覧ください。そうでない場合は、Alibaba Cloudのエンジニアに連絡して最新の復旧状況を確認することをお勧めします。 |
problem-nat-datapathDegraded | NATゲートウェイのデータパスの劣化 | クリティカル | problem-nat-datapathDegraded | NATゲートウェイのデータパスが劣化しています。過去10分以内のNATゲートウェイの可用性は80%未満です。これは、NATゲートウェイのトラフィックの20%以上が影響を受けており、NATゲートウェイが予期したとおりに動作していないことを示しています。パケット損失は、Alibaba Cloud側のイベントが原因である可能性があります。Alibaba Cloudのエンジニアはサービスの復旧を試みています。 | クリティカル:過去10分以内のNATゲートウェイの可用性は80%未満であり、パケットが損失しています。 | |
CLBインスタンス | ||||||
problem-clb-connectionOverLimit | CLBセッションの超過による新しい接続の破棄 | クリティカル | problem-clb-connectionOverLimit | CLBインスタンスの新しい接続数または同時接続数が上限を超えています。その結果、新しいセッションが失敗し、1秒あたりのドロップされた接続数が多くなっています。 | クリティカル:過去10分以内に同時セッション数が上限を超えており、パケットが損失しています。 | CLBインスタンスをNetwork Load Balancer (NLB)インスタンスまたはApplication Load Balancer (ALB)インスタンスにアップグレードしてください。 詳細については、CLBクォータの管理をご覧ください。NLBとALBの詳細については、NLBとはとALBとはをご覧ください。 |
problem-clb-bandwidthOverLimit | CLBインスタンスの帯域幅の使用超過によるパケット損失 | クリティカル | problem-clb-bandwidthOverLimit | CLBインスタンスの帯域幅がピーク帯域幅を超えたため、パケット損失が発生しています。 | クリティカル:過去10分以内にインスタンスの帯域幅の使用量がピーク帯域幅を頻繁に超えており、1秒あたり100ビットを超える損失が発生しています。 | ピーク帯域幅を増やしてください。詳細については、CLBインスタンスに関するFAQをご覧ください。 |
problem-clb-connectionFail | CLB接続の失敗の急増 | クリティカル | problem-clb-connectionFail | CLBインスタンスのバックエンドサーバーの数、ワークロード、またはビジネスの例外の超過により、CLBインスタンスの失敗した接続数が急増しています。 | クリティカル:CLBインスタンスの失敗した接続数が急増しています。次のすべての条件が満たされた場合、アラートがトリガーされます。 条件1:失敗した接続数が1秒あたり100を超えている。 条件2:失敗した接続数が前の10分と比較して30%増加している。 条件3:AIを使用して過去の失敗した接続データを分析し、ベースライン範囲を確立できます。実際の失敗した接続数が10分以内にベースラインの上限を30%以上連続して超えています。 | バックエンドサーバーのアップグレード、CLBインスタンスのアップグレード、またはバックエンドサーバーのサービスステータスの確認を行ってください。 詳細については、CLBクォータの管理をご覧ください。 |
NLB | ||||||
problem-nlb-connectionFail | NLB接続の失敗の急増 | クリティカル | problem-nlb-connectionFail | NLBインスタンスの仮想IPアドレスとElastic Compute Service (ECS)インスタンス間の失敗した接続数が10分連続で大幅に増加しています。考えられる原因:
| クリティカル:失敗したNLB接続数が次のすべての条件を満たす場合、アラートがトリガーされます。 条件1:610秒の監視ウィンドウ内で、失敗した接続の割合が3分連続でベースラインの100%を超えている。 条件2:610秒の監視ウィンドウ内で、失敗した接続数が7分連続で前の1時間と比較して少なくとも50%増加している。 条件3:610秒の監視ウィンドウ内で、失敗した接続数が8分連続で1000以上である。 | バックエンドサーバーの帯域幅の使用量とサービスステータスを確認してください。 |
problem-nlb-newConnectionSurge | 新しいNLB接続の破棄 | クリティカル | problem-nlb-newConnectionSurge | NLBインスタンスの仮想IPアドレスとECSインスタンス間の新しい接続数が大幅に増加しています。その結果、新しい接続要求が連続ミリ秒または秒単位で破棄されています。 | クリティカル:NLB接続数が次のすべての条件を満たす場合、アラートがトリガーされます。 条件1:10分以内に、仮想IPアドレス(VIP)によって1秒あたりに破棄された接続数が0より大きい監視ポイントが8つ以上ある。 条件2:10分以内に、VIPによって1秒あたりに作成された接続数が200000未満である監視ポイントが8つ以上ある。 | 複数のNLBインスタンスを購入してトラフィックをNLBインスタンスに分散するか、アカウントマネージャーにチケットを送信してください。 |
problem-nlb-newConnectionOverLimit | 新しいNLB接続の超過 | クリティカル | problem-nlb-newConnectionOverLimit | NLBインスタンスの仮想IPアドレスとECSインスタンス間の1秒あたりの新しい接続数が上限を超えています。その結果、新しい接続要求が連続ミリ秒または秒単位で破棄されています。 | クリティカル:NLB接続数が次のすべての条件を満たす場合、アラートがトリガーされます。 条件1:10分以内に、VIPによって1秒あたりに破棄された接続数が0より大きい監視ポイントが8つ以上ある。 条件2:10分以内に、VIPによって1秒あたりに作成された接続数が200000以上である監視ポイントが8つ以上ある。 | |
problem-nlb-concurrentConnectionOverLimit | 同時NLB接続の超過 | クリティカル | problem-nlb-concurrentConnectionOverLimit | NLBインスタンスの仮想IPアドレスとECSインスタンス間の1秒あたりの同時接続数が上限を超えています。その結果、新しい接続要求が連続ミリ秒または秒単位で破棄されています。 | クリティカル:NLB接続数が次のすべての条件を満たす場合、アラートがトリガーされます。 条件1:10分以内に、VIPによって1秒あたりに破棄された接続数が0より大きい監視ポイントが8つ以上ある。 条件2:10分以内に、VIPの同時接続数が5000000より大きい監視ポイントが8つ以上ある。 | |
ALB | ||||||
problem-alb-intranetBandwidthOverLimit | ALBインスタンスのプライベート帯域幅の使用超過によるパケット損失 | クリティカル | problem-alb-intranetBandwidthOverLimit | ALBインスタンスの仮想IPアドレスのアウトバウンドまたはインバウンド帯域幅が上限を超えています。ドメイン名がIPアドレスを指しています。 | クリティカル:10分以内に、ALBインスタンスによって破棄されたトラフィックが100 bit/sを超えている監視ポイントが8つ以上ある。 | ALBインスタンスの正規名(CNAME)レコードを追加してください。詳細については、ALBインスタンスへのCNAMEレコードの追加をご覧ください。 |
problem-alb-sessionOverLimit | ALBセッションの超過による新しい接続の破棄 | クリティカル | problem-alb-sessionOverLimit | ALBインスタンスの仮想IPアドレスとECSインスタンス間で確立された新しい接続数または同時接続数が上限を超えています。その結果、新しいセッションが失敗します。ドメイン名がIPアドレスを指しています。 | クリティカル:10分以内に、ALBインスタンスによって1秒あたりに破棄された接続数が0より大きい監視ポイントが8つ以上ある。 | |
problem-alb-qpsOverLimit | ALBインスタンスの仮想IPアドレスに送信されたQPS数が上限を超えたため、503エラーコードが返されました | クリティカル | problem-alb-qpsOverLimit | ALBインスタンスの仮想IPアドレスで受信された1秒あたりのクエリ数(QPS)が上限を超えています。ドメイン名がIPアドレスを指しています。 | クリティカル:10分以内に、ALBインスタンスによって1秒あたりに破棄されたリクエスト数が200クエリ/秒(QPS)を超えている監視ポイントが8つ以上ある。前の7分と比較して、インスタンスによって1秒あたりに破棄されたリクエスト数が10分連続で30%以上増加している。 | |
Cloud Enterprise Network (CEN)インスタンス | ||||||
problem-cen-routeOverLimit | CENルートの超過 | クリティカル | problem-cen-routeOverLimit | CENルートの数がクォータを超えており、ネットワークの問題が発生する可能性があります。 | クリティカル:CENルートの数がクォータを超えており、ネットワークの問題が発生する可能性があります。 | 中継ルーターをアップグレードしてください。詳細については、中継ルーターをベーシックエディションからエンタープライズエディションにアップグレードするをご覧ください。 |
TR | ||||||
problem-cen-vpcAttachBandwidthOverLimit | 仮想プライベートクラウド(VPC)接続帯域幅の使用超過によるパケット損失 | クリティカル | problem-cen-vpcAttachBandwidthOverLimit | CEN中継ルーターの帯域幅がピーク帯域幅を超えたため、パケット損失が発生しています。 | クリティカル:10分以内に、インバウンドパケット損失率が0より大きい監視ポイントが5つ以上ある。 | ピーク帯域幅を増やしてください。詳細については、CENクォータの管理をご覧ください。 |
problem-cen-peerAttachBandwidthOverLimit | リージョン間接続帯域幅の使用超過によるパケット損失 | クリティカル | problem-cen-peerAttachBandwidthOverLimit | CEN中継ルーターの帯域幅がピーク帯域幅を超えたため、パケット損失が発生しています。 | クリティカル:中継ルーター(TR)の実際のトラフィックが次のすべての条件を満たす場合、アラートがトリガーされます。 条件1:10分以内に、アウトバウンドピーク帯域幅の使用率が90%を超えている監視ポイントが8つ以上ある。 条件2:レート制限シナリオでのアウトバウンドパケット損失率が1秒あたり100パケット(pps)を超えている監視ポイントが8つ以上ある。 | ピーク帯域幅を増やしてください。詳細については、CENクォータの管理をご覧ください。 |
リスクイベント
イベントコード | イベント名 | イベントレベル | CloudMonitor のイベント名 | イベントの説明と影響 | アラートルール | ユーザーへの提案 |
インターネット接続インスタンス | ||||||
risk-internetPacketLoss | インターネット接続パケット損失のリスク | 警告 | risk-internetPacketLoss | 次の物理接続でパケット損失が検出されました: {Alibaba Cloud リージョン} から {国} - {地域} - {ISP}。現在のアカウント内のビジネスでネットワークのジッターが発生する可能性があります。 | クリティカル: 次のいずれかの条件が満たされた場合、アラートがトリガーされます。 条件 1: 地域 ISP ネットワークパケット損失が 50% を超えています。 条件 2: 全国規模の ISP ネットワークパケット損失が発生しています。過去 10 分間の接続の帯域幅使用量は 0.05 Mbit/s 以上です。 説明
警告: インターネット経由のパケット損失率が 50% 未満で、過去 10 分間の平均帯域幅が 0.5 Mbit/s を超えています。 | この物理接続上のインスタンスの帯域幅がビジネス要件を満たしているかどうかを確認します。詳細については、NIS コンソールのインターネットトラフィックページにある 5 タプルデータを参照してください。例外が発生した場合は、重要なビジネスデータを他のリージョンに移行できます。例外が発生しない場合は、このアラートを無視します。 |
risk-internetBandwidthOverlimit | 帯域幅使用量超過によるパケット損失リスク | 警告 | risk-internetBandwidthOverlimit | 過去のデータによると、インスタンスの実際の帯域幅は、将来のある時点でピーク帯域幅を 90% を超える確率で超える可能性があります。 | 警告: ある時点で実際の帯域幅がピーク帯域幅を 90% を超える確率で超え、パケット損失が発生します。 | 帯域幅に注意してください。ピーク帯域幅を超えた場合は、ピーク帯域幅を増やしてください。 |
VPN Gateway | ||||||
risk-vpn-bpsOverLimit | VPN 接続帯域幅の超過使用リスク | 警告 | risk-vpn-bpsOverLimit | 過去 10 分間に、VPN 接続の帯域幅使用率が 90% を 3 回超えました。 | 警告: 帯域幅使用率が 90% を超える監視ポイントが 10 分以内に 3 つ以上あります。 | 警告: 帯域幅使用率が 30% を超える監視ポイントが 10 分以内に 8 つ以上あります。 |
risk-vpn-bgpRouteLimit | BGP ルート超過のリスク | 警告 | risk-vpn-bgpRouteLimit | ボーダーゲートウェイプロトコル (BGP) 動的ルーティングを使用して VPN ゲートウェイが自動的に学習したルートの数が、過去 10 分間に BGP ルートクォータの 90% を超えました。 | 警告: ルート使用率が 90% を超える監視ポイントが 10 分以内に 1 つ以上あります。 | 数に注意してください。クォータを超えた場合は、ネットワーク計画に基づいて VPN ゲートウェイの CIDR ブロックを集約することをお勧めします。 |
Express Connect | ||||||
risk-ec-physicalConnectionFail | Express Connect 回線またはポートの障害 | 警告 | risk-ec-physicalConnectionFail | ISP の Express Connect 回線またはデバイスポートで例外が発生したため、サービスが中断されています。 | 警告: VBR インスタンスのデータセンターから VPC への分単位の受信レートが監視されます。次のすべての条件が満たされた場合、アラートがトリガーされます。 条件 1: Express Connect 回線がダウン状態を 3 回以上 20 回未満経験しています。 条件 2: Express Connect 回線が 2 つ以上の連続する時点でダウン状態を経験しています。 条件 3: ダウン状態はすべての Express Connect 回線に適用されません。 | アカウントマネージャーにお問い合わせください。 |
risk-ec-bgpRouterFail | BGP 接続障害 | 警告 | BGP 接続障害 | Express Connect 回線経由の接続が失敗したか、BGP 設定が異常であるため、BGP 接続障害とルート損失が発生します。 | 警告: BGP 接続の状態が「接続済み」から他の状態に変更された場合、アラートがトリガーされます。 | アカウントマネージャーにお問い合わせください。 |
risk-ec-inTrafficDroppedToZero | 受信 VBR トラフィックの急減 | 警告 | risk-ec-inTrafficDroppedToZero | ISP の Express Connect 回線またはデバイスポートで例外が発生したため、受信仮想ボーダールーター (VBR) トラフィックが急激に減少しています。 | 警告: VBR インスタンスのデータセンターから VPC への分単位の受信レートが監視されます。次のすべての条件が満たされた場合、アラートがトリガーされます。条件 1: レートが過去 7 分間の平均レートと比較して 99% 以上低下し、それが 3 分間連続しています。条件 2: 過去 7 分間の平均レートと比較して、毎分のレート低下の絶対値が 1 Mbit/s 以上であり、それが 3 分間連続しています。条件 3: 過去 15 分、30 分、60 分の平均レートと比較して、毎分のレート低下の絶対値が 0.5 Mbit/s 以上であり、それが 3 分間連続しています。条件 4 (インテリジェントベースラインアラーム): VBR インスタンスの過去の受信レートパターンを分析することにより、AI は次のサイクルの受信レートの範囲を予測できます。サイクルが到着した時点で、予測範囲の下限が 3 分以内に 2 分間連続して 99% 超えた場合、異常な障害と見なされます。 | サービストラフィックが正常かどうか、またはヘルスチェック後にフェイルオーバーが実行されているかどうかを確認します。ビジネスに支障が生じた場合は、アカウントマネージャーにお問い合わせください。 |
risk-ec-outTrafficDroppedToZero | 送信 VBR トラフィックの急減 | 警告 | risk-ec-outTrafficDroppedToZero | ISP の Express Connect 回線またはデバイスポートで例外が発生したため、送信 VBR トラフィックが急激に減少しています。 | 警告:VBRインスタンスのデータセンターからVPCへの分単位の送信レートが監視されます。以下のすべての条件が満たされると、アラートがトリガーされます。 条件 1: レートが、過去 7 分間の平均レートと比較して、3 分連続で 99% 以上低下した場合。 条件 2: 過去 7 分間の平均レートと比較して、1 分ごとのレート低下の絶対値が 3 分連続で 1 Mbit/秒以上である。 条件 3: 過去 15 分、30 分、60 分の平均レートと比較して、1 分ごとのレート低下の絶対値が 3 分連続で 0.5 Mbit/s 以上である。 条件 4 (インテリジェントベースラインアラーム): VBR インスタンスの過去の送信レートパターンを学習することにより、AI は次のサイクルの送信レートの安定した範囲を予測できます。サイクルが到来した時点で、予測範囲の下限を 3 分以内に 2 分連続で 99% 超えた場合、異常な障害と見なされます。 | サービストラフィックが正常かどうか、またはヘルスチェック後にフェイルオーバーが実行されているかどうかを確認します。ビジネスに支障が生じた場合は、アカウントマネージャーにお問い合わせください。 |
関連操作
操作 | 説明と参考資料 |
イベントの表示 | イベントは次の方法で表示できます。
|
イベントのサブスクライブ | CloudMonitor コンソールでイベントサブスクリプションポリシーを設定できます。ポリシーを設定すると、イベントの発生と更新が電話、テキストメッセージ、またはメールでタイムリーに通知されます。詳細については、イベントサブスクリプションポリシーの設定をご参照ください。 |
イベントの処理 | イベントを表示した後、提案に基づいて問題を解決できます。詳細については、イベントセンターのトピックのイベントセクションをご参照ください。 |