システムイベントは、運用保守 (O&M) タスクの実行、リソースの例外、リソースのステータス変更など、クラウドリソースに関する情報を記録し、通知を提供します。システムイベントを利用して、ご利用の Elastic Compute Service (ECS) リソースに関するリスクや異常の情報を取得できます。たとえば、インスタンスの有効期限が切れた場合基盤のアップグレードのために移行が必要な場合、またはシステムメンテナンスのために再起動された場合にシステムイベントが生成されます。ECS リソースの可用性やパフォーマンスの低下がビジネスに影響を与えないように、システムイベントに迅速に対応し、処理してください。このトピックでは、スケジュールされた O&M イベント、予期しない O&M イベント、インスタンスの課金イベント、インスタンスのステータス変更イベントなど、ECS がサポートするシステムイベントの概要を説明します。また、各システムイベントの処理方法に関する提案も提供します。
ECS イベントコードと CloudMonitor イベント名のフォーマット
ECS のシステムイベントは CloudMonitor に同期されます。これにより、システムイベントに基づいた自動化された O&M メカニズムを設定できます。ECS イベントコードと CloudMonitor イベント名は、特定の命名規則に従います。フォーマットは次のとおりです。
ECS イベントコード:イベントの原因とリソースへの影響に関する情報が含まれます。フォーマットは
<イベント原因>.<リソースへの影響>です。CloudMonitor イベント名:リソースタイプ、イベント原因、リソースへの影響、イベントステータスに関する情報が含まれます。フォーマットは
<リソースタイプ>:<イベント原因>.<リソースへの影響>:<イベントステータス>です。
すべての ECS イベントコードと CloudMonitor イベント名に、これらの情報がすべて含まれているわけではありません。たとえば、CloudMonitor イベント名 Disk:ErrorDetected:Executing は、ディスクが破損していることを示しており、その後のリソースへの影響に関する情報を含める必要はありません。
次の表に、ECS イベントコードと CloudMonitor イベント名の例をいくつか示します。
サンプルの ECS イベントコードが Undefined の場合、そのシステムイベントは ECS コンソールに表示されず、ECS コンソールまたは OpenAPI 操作の呼び出しでは処理できません。
カテゴリ | ECS イベントコードのサンプル | CloudMonitor イベント名のサンプル | 説明 |
スケジュールされた O&M イベント | SystemMaintenance.Reboot | Instance:SystemMaintenance.Reboot:Inquiring |
|
予期しない O&M イベント | ErrorDetected | Disk:ErrorDetected:Executing |
|
ライフサイクル変更イベント | Snapshot:CreateSnapshotCompleted | Snapshot:CreateSnapshotCompleted |
|
スケジュールされた O&M イベント
オペレーティングシステム内からインスタンスを再起動しても、イベントのメンテナンス操作は適用されません。したがって、このトピックでの再起動操作は、ECS コンソールで実行されるか、OpenAPI 操作を呼び出して実行される再起動を指します。詳細については、「インスタンスの再起動」または「RebootInstance」をご参照ください。
イベントコード | イベント名 | イベントの重要度 | CloudMonitor イベント名 | イベントの説明と影響 | ユーザーへの推奨事項 |
SystemMaintenance.Reboot | システムメンテナンスによるインスタンスの再起動 | 重大 |
| Alibaba Cloud は、ECS インスタンスの基盤となるホストでソフトウェアまたはハードウェアの障害の潜在的なリスクを検出します。このリスクにより、ECS インスタンスが再起動する可能性があります。このリスクはまだ実際の障害にはなっていません。このシステムイベントは、スケジュールされたシステムメンテナンスの 24〜48 時間前に送信されます。 説明 障害リスクには以下が含まれます:
| 必要に応じて対応方法を選択します:
説明
|
SystemMaintenance.Stop | システムメンテナンスによるインスタンスの停止 | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスの基盤となるホストでソフトウェアまたはハードウェアの障害の潜在的なリスクを検出した場合に、スケジュールされたシステムメンテナンスの 24〜48 時間前に送信されます。このリスクにより、インスタンスがシャットダウンされ、停止する可能性があります。このリスクはまだ実際の障害にはなっていません。 | 必要に応じて対応方法を選択します:
説明 インスタンスのメンテナンスプロパティを変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
SystemMaintenance.Redeploy | システムメンテナンスによるインスタンスの再デプロイ | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスの基盤となるホストでソフトウェアまたはハードウェアの障害の潜在的なリスクを検出した場合に、スケジュールされたシステムメンテナンスの 24〜48 時間前に送信されます。このリスクにより、インスタンスが再デプロイされる可能性があります。このリスクはまだ実際の障害にはなっていません。 重要 ローカル SSD またはローカル HDD を使用するインスタンスの場合、データディスクは再初期化され、ローカルディスク上のデータはクリアされます。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。その後、必要に応じて対応方法を選択します:
説明
|
SystemMaintenance.IsolateErrorDisk | システムメンテナンスによる破損ディスクの隔離 | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスのローカルディスクでソフトウェアまたはハードウェアの損傷を検出したときに即座に送信されます。 重要 破損したローカルディスクの処理手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離および修復できます。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。その後、適切な時刻を選択して、破損したディスクの隔離を承認します。ディスクはインスタンスを再起動することなくオンラインで隔離されます。 説明 O&M プロセスの詳細については、「ローカルディスクを持つインスタンスのシナリオ ③」をご参照ください。 |
SystemMaintenance.ReInitErrorDisk | システムメンテナンスによる破損ディスクの再初期化 | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスのローカルディスクでソフトウェアまたはハードウェアの損傷を検出し、ホスト上の破損したローカルディスクを交換した直後に送信されます。これは通常、ディスクの隔離を承認してから 5 営業日以内に発生します。 重要 破損したローカルディスクの処理手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離および修復できます。 | 適切な時刻を選択して、ローカルディスクの復元を承認します。ディスクはインスタンスを再起動することなくオンラインで復元されます。 説明 O&M プロセスの詳細については、「ローカルディスクを持つインスタンスのシナリオ ③」をご参照ください。 |
SystemMaintenance.RebootAndIsolateErrorDisk | システムメンテナンスによるインスタンスの再起動と破損ディスクの隔離 | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスのローカルディスクでソフトウェアまたはハードウェアの損傷を検出し、オンラインでのディスク隔離に失敗した場合に即座に送信されます。 重要 破損したローカルディスクの処理手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離および修復できます。 | 適切な時刻を選択して、破損したディスクの隔離を承認し、自身でインスタンスを再起動します。ディスクはオフラインで隔離され、インスタンスの再起動が必要です。 説明 O&M プロセスの詳細については、「ローカルディスクを持つインスタンスのシナリオ ③」をご参照ください。 |
SystemMaintenance.RebootAndReInitErrorDisk | システムメンテナンスによるインスタンスの再起動と破損ディスクの再初期化 | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスのローカルディスクでソフトウェアまたはハードウェアの損傷を検出し、オンラインでのローカルディスクの復元に失敗した場合に即座に送信されます。 重要 破損したローカルディスクの処理手順は、インスタンスタイプによって異なります。一部のインスタンスタイプでは、破損したディスクを隔離するためにインスタンスを再起動する必要があります。他のインスタンスタイプでは、破損したディスクをオンラインで隔離および修復できます。 | 適切な時刻を選択して、ローカルディスクの復元を承認し、自身でインスタンスを再起動します。ディスクはオフラインで復元され、インスタンスの再起動が必要です。 説明 O&M プロセスの詳細については、「ローカルディスクを持つインスタンスのシナリオ ③」をご参照ください。 |
SystemMaintenance.StopAndRepair | ローカルディスクを持つインスタンスのインプレース修復イベント | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスの基盤となるホストでハードウェア障害のリスクを検出した場合に、スケジュールされたシステムメンテナンスの 48〜168 時間前に送信されます。 | 適切な時刻を選択して、ローカルディスクを持つインスタンスの修復または再デプロイを承認します。 説明 O&M プロセスの詳細については、「ローカルディスクを持つインスタンスの O&M シナリオとシステムイベント」をご参照ください。 |
SystemMaintenance.CleanReleasedDisks | EBS ホットプラグ失敗後のクリーンアップイベント | 警告 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスのオペレーティングシステム内で、支払い遅延のためにリリースされた 1 つ以上のクラウドディスクの構成情報を検出した場合に送信されます。 | 適切な時刻を選択して、Alibaba Cloud がリリースされたクラウドディスクの構成情報をクリアすることを承認します。 重要 Alibaba Cloud は指定した時刻にインスタンスをシャットダウンし、ディスクをクリーンアップしてから、インスタンスを再度起動します。 |
予期しない O&M イベント
イベントコード | イベント名 | イベントの重要度 | CloudMonitor イベント名 | イベントの説明と影響 | 対応方法の提案 |
SystemFailure.Reboot | システムエラーによるインスタンスの再起動 | 重大 |
| このシステムイベントは、Alibaba Cloud が、CPU やメモリのハードウェア損傷など、基盤となるホストでの予期しないソフトウェアまたはハードウェアの障害により ECS インスタンスが再起動されたことを検出した場合に即座に送信されます。 | インスタンスが自動的に再起動するのを待ち、その後、インスタンスとそのアプリケーションが正しく実行されているかを確認します。 再起動中に、Alibaba Cloud はインスタンスを正常なホストに移行します。 説明 インスタンスのメンテナンスプロパティを変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
InstanceFailure.Reboot | オペレーティングシステムエラーによるインスタンスの再起動が必要 | 重大 |
| このシステムイベントは、Alibaba Cloud が、メモリ不足 (OOM) エラー、ブルースクリーン、フリーズ、シリアルポートログの連続出力、カーネルパニックなど、内部オペレーティングシステムの問題により ECS インスタンスがダウンしたことを検出した場合に即座に送信されます。 | インスタンスが自動的に再起動するのを待ち、その後、インスタンスとそのアプリケーションが正しく実行されているかを確認します。 オペレーティングシステムの Kdump サービスを有効にして、クラッシュの原因を特定し、同様の問題の再発を防ぐことができます。詳細については、「Linux インスタンスの Kdump サービスを有効にする」または「Windows インスタンスのカーネルメモリダンプ機能を有効にする」をご参照ください。 |
SystemFailure.Stop | システムエラーによるインスタンスの停止 | 重大 |
| このシステムイベントは、Alibaba Cloud が、CPU やメモリのハードウェア損傷など、基盤となるホストでのソフトウェアまたはハードウェアの障害により ECS インスタンスがシャットダウンされたことを検出した場合に即座に送信されます。 | インスタンスが自動的に停止するのを待ち、その後、インスタンスを起動します。 インスタンスを起動すると、Alibaba Cloud はインスタンスを正常なホストに移行します。 説明 インスタンスのメンテナンスプロパティを変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
SystemFailure.Redeploy | システムエラーによるインスタンスの再デプロイ | 重大 |
| このシステムイベントは、Alibaba Cloud が、基盤となるホストでのソフトウェアまたはハードウェアの障害により、ローカルディスクを持つインスタンスを再デプロイする必要があることを検出した場合に即座に送信されます。 説明 このタイプのイベントは、ローカルディスクがアタッチされているインスタンスや SGX ベースの機密コンピューティングをサポートするインスタンスなど、ホストのハードウェアに依存するインスタンスでのみサポートされます。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。その後、必要に応じて対応方法を選択します:
説明 インスタンスのメンテナンスプロパティを変更して、インスタンスで O&M イベントが発生したときに実行するデフォルトのアクションを指定できます。詳細については、「インスタンスのメンテナンスプロパティの変更」をご参照ください。 |
SystemFailure.Delete | インスタンス作成失敗による自動請求キャンセル | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスを作成する注文は成功したものの、インスタンスの作成に失敗したことを検出した場合に即座に送信されます。 | システムが自動的にインスタンスをリリースするのを待ちます。インスタンスは通常、作成に失敗してから 5 分以内にリリースされます。 説明 注文の支払いがお済みの場合、インスタンスがリリースされた後に返金されます。 インスタンス作成の成功率を高めるには:
|
ErrorDetected | ローカルディスク破損のアラート | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスのローカルディスクで予期しないソフトウェアまたはハードウェアの損傷を検出し、ディスクの読み書きができなくなった場合に即座に送信されます。 | /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。その後、適切な時刻を選択して、破損したディスクを隔離し、ローカルディスクを復元します。 サポートされている操作はインスタンスタイプによって異なります。詳細は次のとおりです:
説明 O&M プロセスの詳細については、「ローカルディスクを持つインスタンスのシナリオ ③」をご参照ください。 |
Stalled | ディスクパフォーマンスに深刻な影響 | 重大 |
| このシステムイベントは、Alibaba Cloud が ECS インスタンスにアタッチされたクラウドディスクで I/O ハングが発生したことを検出した場合に即座に送信されます。これにより、ディスクのパフォーマンスが著しく影響を受け、ディスクの読み書きができなくなります。 | アプリケーション層でクラウドディスクへの読み書き操作を隔離するか、一時的にインスタンスを SLB インスタンスから削除します。 |
基盤アップグレードによるインスタンス移行イベント
イベントコード | イベント名 | イベントの重要度 | CloudMonitor イベント名 | イベントの説明と影響 | 対応方法の提案 |
SystemUpgrade.Migrate | 基盤アップグレードによるインスタンス移行が必要 | 重大 | Undefined | Alibaba Cloud が物理インフラストラクチャをアップグレードおよび変換する場合、対応するリージョンおよびゾーンのインスタンスが影響を受ける可能性があります。このシステムイベントは事前に送信されます。 | ECS コンソールにログインしてシステムイベントの詳細を表示し、プロンプトに従ってインスタンスを移行します。詳細については、「基盤アップグレードによるインスタンス移行」をご参照ください。 |
バースト可能インスタンスのパフォーマンス制限イベント
イベントコード | イベント名 | イベントの重要度 | CloudMonitor イベント名 | イベントの説明と影響 | 対応方法の提案 |
Instance:BurstablePerformanceRestricted | バースト可能インスタンスのパフォーマンスが制限されている | 警告 | Instance:BurstablePerformanceRestricted:バースト可能インスタンスのパフォーマンスが制限されている | このシステムイベントは、バースト可能インスタンスの蓄積された CPU クレジットが枯渇したときに即座に送信されます。 | 必要に応じて対応方法を選択します:
通知をトリガーするしきい値をカスタマイズする場合、たとえば、蓄積された CPU クレジットが 10 分間連続して 10 未満になったときに通知を受け取るには、CloudMonitor コンソールでしきい値ベースのアラートルールを設定できます。詳細については、「バースト可能インスタンスの監視」をご参照ください。 |
ステータス変更イベント
イベントコード | イベント名 | イベントの重要度 | CloudMonitor イベント名 | イベントの説明と影響 | 対応方法の提案 |
Instance:PreemptibleInstanceInterruption | スポットインスタンス中断通知 | 警告 | Instance:PreemptibleInstanceInterruption:スポットインスタンス中断通知 | このシステムイベントは、スポットインスタンスが回収される 5 分前に送信されます。 | 以下を推奨します:
|
Instance:ModifyInstanceSpec.Reboot | インスタンスタイプ変更を有効にするためのインスタンス再起動が必要 | 重大 |
| インスタンスタイプを変更した後、新しい構成を有効にするにはインスタンスを再起動する必要があります。新しい注文が有効になってから 7 日以内にインスタンスを再起動しない場合、システムは新しいインスタンスタイプを適用するためにインスタンスを強制的に再起動します。 | 以下を推奨します:
|
Instance:PerformanceModeChange | バースト可能インスタンスのパフォーマンスモードの切り替え | 警告 | Instance:PerformanceModeChange:バースト可能インスタンスのパフォーマンスモードの切り替え | このシステムイベントは、バースト可能インスタンスが無制限モードから標準モードに、または標準モードから無制限モードに切り替わるときに生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Instance:StateChange | インスタンスステータス変更通知 | 情報 | Instance:StateChange:インスタンスステータス変更通知 | このシステムイベントは、インスタンスのステータスが変更されたとき (例:実行中から停止中、または停止中から停止済み) に生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Instance:AutoReactivateCompleted | 自動再起動完了 | 情報 | Instance:AutoReactivateCompleted:自動再アクティベーション完了 | このシステムイベントは、支払い遅延の請求を支払い、インスタンスが自動的に再起動されたときに生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Instance:LiveMigrationAcrossDDH | 専用ホスト間のインスタンスのホットマイグレーション | 情報 | Instance:LiveMigrationAcrossDDH:専用ホスト間のインスタンスのホットマイグレーション | このシステムイベントは、インスタンスがホットマイグレーションされたときに生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Disk:DiskOperationCompleted | ディスク操作完了 | 情報 | Disk:DiskOperationCompleted:ディスク操作完了 | このシステムイベントは、従量課金ディスクが手動でアタッチまたはデタッチされたときに生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Disk:ConvertToPostpaidCompleted | ディスクが従量課金に変換された | 情報 | Disk:ConvertToPostpaidCompleted:ディスクが従量課金に変換された | このシステムイベントは、サブスクリプションディスクが従量課金ディスクに変換されたときに生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Snapshot:CreateSnapshotCompleted | ディスクスナップショットが作成された | 情報 | Snapshot:CreateSnapshotCompleted:ディスクスナップショットが作成された | このシステムイベントは、ディスクのスナップショットが作成されたときに生成されます。 | 必要に応じてこのシステムイベントをフォローするかどうかを決定します。イベントをフォローしたい場合は、CloudMonitor コンソールでイベント通知を設定できます。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。 |
Snapshot:SnapshotDeleted | スナップショット削除完了イベント | 情報 | Snapshot:SnapshotDeleted:スナップショット削除完了イベント | このシステムイベントは、手動スナップショットまたは自動スナップショットが削除されたときに生成されます。 | なし |
インスタンスのパフォーマンスリスクイベント
イベントコード | イベント名 | イベントの重要度 | CloudMonitor イベント名 | イベントの説明と影響 | 対応方法の提案 |
Instance:CPUPerformanceReachLimit | インスタンスの CPU パフォーマンスがインスタンスタイプの上限に達した | 警告 | Instance:CPUPerformanceReachLimit:Executed:インスタンスの CPU パフォーマンスがインスタンスタイプの上限に達した | Alibaba Cloud は、インスタンスの CPU 使用率が 100% またはインスタンスタイプの上限に達したことを検出しました。 説明 インスタンスタイプに定義された CPU 上限に過去 3 分以内に 2 回達した場合にイベントが送信されます。 | インスタンスタイプの上限で CPU 使用率が持続すると、ビジネスに悪影響を及ぼす可能性があります。必要に応じて構成を調整してください。詳細については、「インスタンスの問題の発見とトラブルシューティング」をご参照ください。 |
Instance:StoragePerformanceReachLimit | インスタンスのストレージパフォーマンスがインスタンスタイプの上限に達した | 警告 | Instance:StoragePerformanceReachLimit:Executed:インスタンスのストレージパフォーマンスがインスタンスタイプの上限に達した | Alibaba Cloud は、インスタンスのディスク帯域幅または IOPS がインスタンスタイプの上限に達したことを検出しました。例:
説明 このイベントは、第 6 世代より前の世代の ECS インスタンスではサポートされていません。インスタンスタイプに定義されたストレージパフォーマンス上限に過去 3 分以内に 2 回達した場合にイベントが送信されます。 | インスタンスタイプの上限でストレージパフォーマンスが持続すると、ビジネスに悪影響を及ぼす可能性があります。必要に応じて構成を調整してください。詳細については、「インスタンスの問題の発見とトラブルシューティング」をご参照ください。 |
Instance:NetworkPerformanceReachLimit | インスタンスのネットワークパフォーマンスがインスタンスタイプの上限に達した | 警告 | Instance:NetworkPerformanceReachLimit:Executed:インスタンスのネットワークパフォーマンスがインスタンスタイプの上限に達した | Alibaba Cloud は、インスタンスのネットワークパフォーマンスがインスタンスタイプの上限に達したことを検出しました。例:
説明 インスタンスタイプに定義されたネットワークパフォーマンス上限に過去 3 分以内に 2 回達した場合にイベントが送信されます。 | インスタンスタイプの上限でネットワークパフォーマンスが持続すると、ビジネスに悪影響を及ぼす可能性があります。必要に応じて構成を調整してください。詳細については、「インスタンスの問題の発見とトラブルシューティング」をご参照ください。 |
Instance:StatusCheckFailed | インスタンスのステータスチェックに失敗 | 警告 |
| Alibaba Cloud は、インスタンスの接続例外を検出しました。例:
| Alibaba Cloud はインスタンスの接続例外を検出しました。迅速なトラブルシューティングが必要です。詳細については、「ネットワーク接続の診断」をご参照ください。 |