ローカルディスクを搭載したインスタンスの一般的な運用と保守のシナリオおよびシステムイベント - Elastic Compute Service

ローカルディスクはデータの高可用性を提供しません。ローカルディスクでのユーザーエクスペリエンスを向上させるために、Alibaba Cloud は、ローカルディスクで発生する例外を把握し、処理するのに役立つさまざまな運用と保守機能を提供しています。このトピックでは、ローカルディスクを搭載した Elastic Compute Service (ECS) インスタンスの一般的な運用と保守のシナリオとシステムイベントについて説明します。

ローカルディスクを搭載したインスタンスのシステムイベントの表示と監視

ローカルディスクを搭載したインスタンスのシステムイベントを表示します。

ローカルディスクを搭載したインスタンスのシステムイベントは、[ECS コンソール] または Alibaba Cloud CLI を使用して表示します。詳細については、「ECS システムイベントのクエリと処理」をご参照ください。
ローカルディスクを搭載したインスタンスのシステムイベントは、[CloudMonitor コンソール] で表示します。詳細については、「システムイベントの表示」をご参照ください。

ローカルディスクを搭載したインスタンスのシステムイベントを監視します。

ECS インスタンスで実行されているサービスの安定性を確保し、運用と保守を自動化するために、基盤となる環境の変更が通知されるようにイベント通知を構成することをお勧めします。イベント通知を構成すると、システムは指定した通知方法を使用して通知します。

[CloudMonitor コンソール] でアラートルールを構成して、イベント通知をプッシュします。詳細については、「ECS システムイベント通知のサブスクライブ」をご参照ください。
DingTalk チャットボットを使用して、DingTalk グループにイベント通知を送信します。詳細については、「DingTalk チャットボットを使用したイベント通知の送信」をご参照ください。
ECS ベアメタルインスタンスに xdragon_hardware_detect_plugin プラグインをインストールして、インスタンス上のローカルディスクのヘルスステータスを定期的にチェックします。詳細については、「監視プラグインのインストール」をご参照ください。

一般的な運用と保守のシナリオと関連するシステムイベント

次の図は、ローカルディスクを搭載した ECS インスタンスに共通の運用と保守のシナリオと、インスタンスのシステムイベントを示しています。

説明

インスタンスのメンテナンス属性を変更して、インスタンスの自動リカバリモード（メンテナンスアクションとも呼ばれます）を変更できます。たとえば、インスタンスのメンテナンスアクションが [自動的に再デプロイ] の場合、インスタンスは自動的に再デプロイされます。詳細については、「インスタンスのメンテナンス属性の変更」をご参照ください。

前の図に示されているシナリオでトリガーされるシステムイベントについては、このトピックの以下のセクションを参照してください。

シナリオ ①：SystemMaintenance.Reboot
シナリオ ②：SystemMaintenance.Redeploy
シナリオ ③：SystemFailure.Reboot
シナリオ ④：SystemFailure.Redeploy
シナリオ ⑤：Disk:ErrorDetected、SystemMaintenance.IsolateErrorDisk、SystemMaintenance.ReInitErrorDisk、SystemMaintenance.RebootAndIsolateErrorDisk、または SystemMaintenance.RebootAndReInitErrorDisk
シナリオ ⑥：SystemMaintenance.StopAndRepair

説明

業務継続性を確保するために、影響を受ける ECS インスタンスのデータをバックアップし、インスタンスで運用と保守タスクを実行する前に、他のインスタンスに切り替えることをお勧めします。たとえば、影響を受ける ECS インスタンスからトラフィックを転送し、ECS インスタンスを Server Load Balancer (SLB) インスタンスから関連付け解除し、ECS インスタンスのディスクデータをバックアップできます。

シナリオ ①

SystemMaintenance.Reboot システムイベントを処理する手順:

インスタンスの再起動がスケジュールされると、通知されます。
次のいずれかの方法を使用して、イベントを処理します。
- スケジュールされた期間内にインスタンスを再起動したくない場合は、インスタンスを再起動する別の時点を指定します。詳細については、「スケジュールされた再起動時刻の変更」をご参照ください。
- ユーザー操作ウィンドウ内でインスタンスを再起動します。詳細については、「インスタンスの再起動」をご参照ください。
  説明
  [ECS コンソール] で、または RebootInstance オペレーションを呼び出すことによって、インスタンスを再起動する必要があります。インスタンス内からインスタンスを再起動することはできません。
- インスタンスが自動的に再起動されるのを待ちます。
インスタンスとアプリケーションが引き続き想定どおりに動作するかどうかを確認します。

SystemMaintenance.Reboot でサポートされているイベント状態については、「概要」をご参照ください。イベント状態間の一般的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションをご参照ください。

シナリオ ②

SystemMaintenance.Redeploy システムイベントを処理する手順:

ローカルディスクを搭載したインスタンスの再デプロイがスケジュールされると、通知されます。
/etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。
必要な準備については、「ローカルディスクが接続されているインスタンスの再デプロイ」トピックの「前提条件」セクションをご参照ください。
次のいずれかの方法を使用して、イベントを処理します。
- ユーザー操作ウィンドウ内でインスタンスを再デプロイします。詳細については、「ローカルディスクが接続されているインスタンスの再デプロイ」をご参照ください。
- インスタンスが自動的に再デプロイされるのを待ちます。
説明
ローカルディスクを搭載したインスタンスが再デプロイされると、インスタンスは別の物理マシンに移行され、インスタンスのローカルディスクは再初期化され、すべてのデータが失われます。
インスタンスとアプリケーションが引き続き想定どおりに動作するかどうかを確認します。想定どおりに動作する場合は、ビジネス要件に基づいてデータを同期します。

SystemMaintenance.Redeploy でサポートされているイベント状態については、「概要」をご参照ください。イベント状態間の一般的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションをご参照ください。

シナリオ ③

SystemFailure.Reboot システムイベントを処理する手順:

システムエラーが原因で、システムがインスタンスを再起動します。
インスタンスが再起動されると、通知されます。
手動で介入せずに、インスタンスが再起動されるまで待ちます。
インスタンスとアプリケーションが引き続き想定どおりに動作するかどうかを確認します。

SystemFailure.Reboot でサポートされているイベント状態については、「概要」をご参照ください。イベント状態間の一般的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションをご参照ください。

シナリオ ④

SystemFailure.Redeploy システムイベントを処理する手順:

ローカルディスクを搭載したインスタンスの再デプロイがスケジュールされると、通知されます。
/etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。
必要な準備については、「ローカルディスクが接続されているインスタンスの再デプロイ」トピックの「前提条件」セクションをご参照ください。
次のいずれかの方法を使用して、イベントを処理します。
- ユーザー操作ウィンドウ内でインスタンスを再デプロイします。詳細については、「ローカルディスクが接続されているインスタンスの再デプロイ」をご参照ください。
- インスタンスが自動的に再デプロイされるのを待ちます。
説明
ローカルディスクを搭載したインスタンスが再デプロイされると、インスタンスは別の物理サーバに移行され、インスタンスのローカルディスクは再初期化され、すべてのデータが失われます。
インスタンスとアプリケーションが引き続き想定どおりに動作するかどうかを確認します。想定どおりに動作する場合は、ビジネス要件に基づいてデータを同期します。

SystemFailure.Redeploy でサポートされているイベント状態については、「概要」をご参照ください。イベント状態間の一般的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションをご参照ください。

シナリオ ⑤

シナリオ ⑤ では、影響を受けるインスタンスを別のホストに再デプロイするか、破損したローカルディスクの交換を承認できます。破損したローカルディスクを交換する場合は、次の点に注意してください。

ローカルディスクを搭載したインスタンスの特定のディスクのみを隔離できます。破損したディスクは、システムイベントにディスクの隔離イベントまたは操作が含まれている場合にのみ隔離できます。
ディスクの隔離とディスクのメンテナンスは互いに独立しています。ディスクのメンテナンスにはディスクの隔離が必要ですが、ディスクのメンテナンスの結果は保証されません。ローカルディスクのメンテナンスは、すべてのインスタンスでサポートされているわけではありません。ディスクのメンテナンスは、Alibaba Cloud からディスクの復元通知を受け取った場合にのみ開始できます。

インスタンスのローカルディスクを復元する場合は、インスタンスを再デプロイできます。ただし、インスタンスを再デプロイすると、ローカルディスクに保存されているデータは失われます。詳細については、「ローカルディスクが接続されているインスタンスの再デプロイ」をご参照ください。
破損したローカルディスクを交換すると、交換されたローカルディスクのデータのみが失われます。インスタンス上の他のローカルディスクに保存されているデータは保持されます。インスタンス上の破損したローカルディスクを交換するには、次の操作を実行します。
1. インスタンス上のローカルディスクが破損し、隔離がスケジュールされると、通知されます。
2. /etc/fstab 構成ファイルの変更やデータのバックアップなどの準備を行います。
3. システムディスクに破損したディスクの隔離イベントまたは操作が含まれている場合は、破損したローカルディスクの隔離を承認します。
4. システムイベントに再起動イベントまたは操作が含まれている場合は、インスタンスを再起動します。
5. Alibaba Cloud は、インスタンスが存在するホストから破損したローカルディスクを取り外し、新しいディスクを挿入してから、ディスクの復元通知を送信します。
6. システムイベントにディスクの復元イベントまたは操作が含まれている場合は、ディスクの復元を承認します。
7. システムイベントに再起動イベントまたは操作が含まれている場合は、インスタンスを再起動します。
説明
破損したローカルディスクを交換するには、Alibaba Cloud と協力する必要があります。詳細については、「ECS コンソールで破損したローカルディスクを隔離する」および「Alibaba Cloud CLI を使用して破損したローカルディスクを隔離する」をご参照ください。
次の図は、破損したローカルディスク関連のシステムイベントでサポートされているイベント状態と、イベント状態間の遷移を示しています。

シナリオ ⑥

シナリオ ⑥ では、影響を受けるインスタンスを別のホストに再デプロイするか、インプレース修復の実行を承認できます。インプレース修復の実行を承認する場合は、次の点に注意してください。

インプレース修復では、データ損失ゼロまたは 100% の修復成功率を保証できません。インプレース修復の実行を承認する前に、すべての主要なビジネスデータをバックアップしていることを確認してください。
ローカルディスクを搭載したインスタンスの特定のディスクのみをオフラインで修復できます。
修復ウィンドウ内では、インスタンスを起動できず、課金方法に基づいて課金が継続されます。
インプレース修復の完了には 14 営業日が必要です。修復ウィンドウ内では、修復中のインスタンスを再デプロイまたはリリースして、修復プロセスを終了できます。

インスタンスのローカルディスクを復元する場合は、インスタンスを再デプロイできます。ただし、インスタンスを再デプロイすると、ローカルディスクに保存されているデータは失われます。詳細については、「ローカルディスクが接続されているインスタンスの再デプロイ」をご参照ください。
SystemMaintenance.StopAndRepair システムイベントを処理する手順:
1. ローカルディスクを搭載したインスタンスをインプレースで修復する必要があることを示すシステムイベントを受け取ります。
2. 次のいずれかの方法を使用して、イベントを処理します。
  - ユーザー操作ウィンドウ内で、インスタンスを停止し、インプレース修復の実行を承認します。
  - システムがインスタンスを停止し、ホストハードウェアを修復するのを待ちます。
3. Alibaba Cloud はホストハードウェアを修復し、ハードウェアが修復されると修復完了イベントを送信します。
4. インスタンスとアプリケーションが引き続き想定どおりに動作するかどうかを確認します。想定どおりに動作する場合は、ビジネス要件に基づいてデータを同期します。

SystemMaintenance.StopAndRepair でサポートされているイベント状態については、「概要」をご参照ください。イベント状態間の一般的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションをご参照ください。

参照

AcceptInquiredSystemEvent オペレーションを呼び出して、システムイベントのデフォルト操作を受け入れ、システムに操作の実行を承認できます。