ローカルディスクは、データの高可用性を提供しません。 ローカルディスクでのユーザーエクスペリエンスを向上させるために、Alibaba CloudはさまざまなO&M機能を提供しており、ローカルディスクで発生する例外に対応しています。 このトピックでは、ローカルディスクを備えたElastic Compute Service (ECS) インスタンスの一般的なO&Mシナリオとシステムイベントについて説明します。
一般的なO&Mシナリオおよび関連するシステムイベント
次の図は、ローカルディスクを備えたインスタンスに共通するO&Mシナリオと、インスタンスに関連するシステムイベントを示しています。
インスタンスのメンテナンス属性を変更することで、インスタンスの自動復旧モード (メンテナンスアクションとも呼ばれます) を変更できます。 たとえば、インスタンスのメンテナンスアクションが [自動再デプロイ] の場合、インスタンスは自動的に再デプロイされます。 詳細は、「インスタンスメンテナンス属性の変更」をご参照ください。
ECSベアメタルインスタンスの場合、xdragon_hardware_detect_pluginプラグインをインストールして、インスタンスのローカルディスクのヘルスステータスを定期的に確認できます。 詳細については、「モニタリングプラグインのインストール」をご参照ください。
前の図に示すシナリオでトリガーされるシステムイベントの詳細については、このトピックの次のセクションを参照してください。
ビジネスの継続性を確保するために、影響を受けるECSインスタンスのデータをバックアップし、インスタンスでO&Mタスクを実行する前に他のインスタンスに切り替えることを推奨します。 たとえば、影響を受けるECSインスタンスからトラフィックを迂回させたり、Server Load Balancer (SLB) インスタンスからECSインスタンスの関連付けを解除したり、ECSインスタンスのディスクデータをバックアップしたりできます。
シナリオ ①
SystemMaintenance.Rebootシステムイベントの処理手順:
インスタンスの再起動がスケジュールされたときに通知されます。
次のいずれかの方法を使用してイベントを処理します。
スケジュールされた期間内にインスタンスを再起動しない場合は、インスタンスを再起動する別の時間を指定します。 詳細については、「スケジュールされた再起動時間の変更」をご参照ください。
ユーザー操作画面内でインスタンスを再起動します。 詳細は、「インスタンスの再起動」をご参照ください。
説明ECSコンソールで、またはRebootInstance操作を呼び出してインスタンスを再起動する必要があります。 インスタンス内からインスタンスを再起動することはできません。
インスタンスが自動的に再起動されるのを待ちます。
インスタンスとアプリケーションが期待どおりに動作し続けるかどうかを確認します。
SystemMaintenance.Rebootでサポートされているイベント状態の詳細については、「概要」をご参照ください。 イベント状態間の典型的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションを参照してください。
シナリオ ②
SystemMaintenance.Redeployシステムイベントの処理手順:
ローカルディスクを備えたインスタンスが再デプロイされるようにスケジュールされたときに通知されます。
/etc/fstab設定ファイルの変更やデータのバックアップなどの準備をしてください。
必要な準備の詳細については、「ローカルディスクを備えたインスタンスの再デプロイ」トピックの「前提条件」をご参照ください。
次のいずれかの方法を使用してイベントを処理します。
ユーザー操作ウィンドウ内でインスタンスを再デプロイします。 詳細については、「ローカルディスクを備えたインスタンスの再デプロイ」をご参照ください。
インスタンスが自動的に再デプロイされるのを待ちます。
説明ローカルディスクを備えたインスタンスが再デプロイされると、インスタンスは別の物理マシンに移行され、インスタンスのローカルディスクは再初期化され、すべてのデータが失われます。
インスタンスとアプリケーションが期待どおりに動作し続けるかどうかを確認します。 はいの場合、ビジネス要件に基づいてデータを同期します。
SystemMaintenance.Redeployでサポートされているイベント状態の詳細については、「概要」をご参照ください。 イベント状態間の典型的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションを参照してください。
シナリオ ③
SystemFailure.Rebootシステムイベントを処理する手順:
システムエラーにより、システムがインスタンスを再起動します。
インスタンスの再起動時に通知されます。
手動の介入なしにインスタンスが再起動されるまで待ちます。
インスタンスとアプリケーションが期待どおりに動作し続けるかどうかを確認します。
SystemFailure.Rebootでサポートされているイベントの状態については、「ECSシステムイベント」をご参照ください。 イベント状態間の典型的な遷移を示す図については、「システムイベントの状態とウィンドウ」をご参照ください。
シナリオ ④
SystemFailure.Redeployシステムイベントを処理する手順:
ローカルディスクを備えたインスタンスが再デプロイされるようにスケジュールされたときに通知されます。
/etc/fstab設定ファイルの変更やデータのバックアップなどの準備をしてください。
必要な準備については、「ローカルディスクを備えたインスタンスの再デプロイ」トピックの「前提条件」をご参照ください。
次のいずれかの方法を使用してイベントを処理します。
ユーザー操作ウィンドウ内でインスタンスを再デプロイします。 詳細については、「ローカルディスクを備えたインスタンスの再デプロイ」をご参照ください。
インスタンスが自動的に再デプロイされるのを待ちます。
説明ローカルディスクを備えたインスタンスが再デプロイされると、インスタンスは別の物理サーバーに移行され、インスタンスのローカルディスクは再初期化され、すべてのデータが失われます。
インスタンスとアプリケーションが期待どおりに動作し続けるかどうかを確認します。 はいの場合、ビジネス要件に基づいてデータを同期します。
SystemFailure.Redeployでサポートされているイベント状態の詳細については、「概要」をご参照ください。 イベント状態間の典型的な遷移を示す図については、「システムイベントの状態とウィンドウ」をご参照ください。
シナリオ ⑤
インスタンスのホスト上のローカルディスクが破損しているシナリオ5では、インスタンスを別のホストに再デプロイするか、ディスクを置き換えることができます。 破損したディスクを交換するときは、次の項目に注意してください。
ローカルディスクインスタンスの特定のディスクのみを分離できます。 システムイベントの操作にディスク分離が含まれている場合にのみ、破損したディスクを分離できます。
ディスクの分離とディスクのメンテナンスは互いに独立しています。 ディスクのメンテナンスにはディスクの分離が必要ですが、ディスクのメンテナンス結果を保証することはできません。 ローカルディスクのメンテナンスは、すべてのインスタンスでサポートされていません。 ディスクのメンテナンスを開始できるのは、Alibaba Cloudからディスクの復元の通知を受け取った場合のみです。
インスタンスを再デプロイすることで、インスタンスのローカルディスクを復元できます。 ただし、インスタンスを再デプロイすると、ローカルディスクに保存されているデータが失われます。 詳細については、「ローカルディスクを備えたインスタンスの再デプロイ」をご参照ください。
破損したローカルディスクが交換されると、交換されたローカルディスクのデータのみが失われます。 インスタンス上の他のローカルディスクに保存されたデータは保持されます。 インスタンス上の破損したローカルディスクを置き換えるには、次の操作を実行します。
インスタンス上のローカルディスクが破損し、分離されるようにスケジュールされた場合に通知されます。
/etc/fstab設定ファイルの変更やデータのバックアップなどの準備をしてください。
システムイベントの名前にIsolateErrorDiskが含まれている場合は、破損したディスクの分離を許可します。
システムイベントの名前にRebootが含まれている場合は、インスタンスを再起動する必要があります。
Alibaba Cloudは、インスタンスが存在するホストから破損したローカルディスクを削除し、新しいディスクを挿入してから、ディスク復元通知を送信します。
システムイベントにディスクの復元または関連する操作が含まれている場合は、ディスクの復元を許可します。
システムイベントの名前にRebootが含まれている場合は、インスタンスを再起動する必要があります。
説明破損したローカルディスクを交換するには、Alibaba Cloudと協力する必要があります。 詳細については、「ECSコンソールで破損したローカルディスクを分離する」および「Alibaba Cloud CLIを使用して破損したローカルディスクを分離する」をご参照ください。
損傷ディスク関連のシステムイベントでサポートされているイベント状態とイベント状態間の遷移を次の図に示します。
シナリオ ⑥
シナリオ ⑥ では、インスタンスを別のホストに再デプロイしたり、インプレース修復の実行を許可したりできます。 インプレース修理の実行を許可するときは、次の項目に注意してください。
インプレース修復では、データ損失をゼロにしたり、修復の成功率を100% できません。 一括修復の実行を許可する前に、すべての主要なビジネスデータをバックアップしていることを確認してください。
ローカルディスクを備えたインスタンス上の特定のディスクのみがオフラインで修復できます。
修復ウィンドウ内では、インスタンスは起動できず、課金方法に基づいて課金され続けます。
現場での修理は14営業日に及びます。 修復ウィンドウ内で、修復中のインスタンスを再デプロイまたはリリースして、修復プロセスを終了できます。
インスタンスを再デプロイすることで、インスタンスのローカルディスクを復元できます。 ただし、インスタンスを再デプロイすると、ローカルディスクに保存されているデータが失われます。 詳細については、「ローカルディスクを備えたインスタンスの再デプロイ」をご参照ください。
SystemMaintenance.StopAndRepairシステムイベントを処理する手順:
ローカルディスクを備えたインスタンスをその場で修復する必要があることを示すシステムイベントを受け取ります。
次のいずれかの方法を使用してイベントを処理します。
ユーザー操作ウィンドウ内で、インスタンスを停止し、インプレース修復の実行を許可します。
システムがインスタンスを停止し、ホストハードウェアを修復するのを待ちます。
Alibaba Cloudはホストハードウェアを修復し、ハードウェアが修復されると修復完了イベントを送信します。
インスタンスとアプリケーションが期待どおりに動作し続けるかどうかを確認します。 はいの場合、ビジネス要件に基づいてデータを同期します。
SystemMaintenance.StopAndRepairでサポートされているイベント状態の詳細については、「概要」をご参照ください。 イベント状態間の典型的な遷移を示す図については、「概要」トピックの「システムイベントの状態とウィンドウ」セクションを参照してください。