系统事件用于记录和通知云资源信息,例如运维任务执行情况、资源是否出现异常和资源状态变化等。您可以通过系统事件获取ECS资源的风险和异常信息,例如实例因底层升级需迁移或因系统维护重启了某一实例等,然后及时响应和处理系统事件,避免因ECS资源可用性或性能受损而影响业务。本文汇总了云服务器ECS支持的系统事件(包括计划内运维事件、非预期运维事件、实例费用事件和实例状态变化事件等),并为各系统事件提供处理建议。
如果事件Code列为未定义,例如实例状态改变通知(Instance:StateChange),代表该系统事件不支持通过ECS控制台和ECS事件OpenAPI查询。
计划内运维事件
在实例操作系统内部进行重启操作时,无法使事件对应的维护动作生效。因此,本文涉及的重启实例操作指的是通过ECS控制台或调用API方式进行,具体操作,请参见重启实例或RebootInstance - 重启实例。
事件Code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
SystemMaintenance.Reboot | 因系统维护实例重启 | 严重 |
| 阿里云检测到ECS实例所在的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重启,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。 | 建议您根据需要选择一种响应方式: 说明
|
SystemMaintenance.Stop | 因系统维护实例停止 | 严重 |
| 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例关机并停止,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。 | 建议您根据需要选择一种响应方式:
说明 您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。 |
SystemMaintenance.Redeploy | 因系统维护实例重新部署 | 严重 |
| 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。 重要 使用了本地SSD盘或者本地HDD盘的实例会重新初始化数据盘,本地盘上的数据会被清空。 | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式:
说明
|
SystemMaintenance.IsolateErrorDisk | 因系统维护隔离坏盘 | 严重 |
| 阿里云检测到ECS实例的本地盘出现软硬件损坏时,立即发送该系统事件。 重要 根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。 | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后选择合适的时间授权隔离坏盘(在线隔离,无需重启实例)。 说明 详细的运维流程说明,请参见本地盘实例运维场景③。 |
SystemMaintenance.ReInitErrorDisk | 因系统维护重新初始化坏盘 | 严重 |
| 阿里云检测到ECS实例的本地磁盘出现软硬件损坏,并且更换了本地盘实例所在宿主机上损坏的本地盘后,立即发送该系统事件,通常在您授权隔离坏盘后五个工作日内。 重要 根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。 | 建议您选择合适的时间授权恢复本地盘(在线恢复,无需重启实例)。 说明 详细的运维流程说明,请参见本地盘实例运维场景③。 |
SystemMaintenance.RebootAndIsolateErrorDisk | 因系统维护重启实例并隔离坏盘 | 严重 |
| 阿里云检测到ECS实例的本地磁盘出现软硬件损坏,在执行在线隔离坏盘失败时,立即发送该系统事件。 重要 根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。 | 建议您选择合适的时间授权隔离坏盘,并自行重启实例(离线隔离,需要重启实例)。 说明 详细的运维流程说明,请参见本地盘实例运维场景③。 |
SystemMaintenance.RebootAndReInitErrorDisk | 因系统维护重启实例并重新初始化坏盘 | 严重 |
| 阿里云检测到ECS实例的本地磁盘出现软硬件损坏,在执行在线恢复本地盘失败时,立即发送该系统事件。 重要 根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。 | 建议您选择合适的时间授权恢复本地盘,并自行重启实例(离线恢复,需要重启实例)。 说明 详细的运维流程说明,请参见本地盘实例运维场景③。 |
SystemMaintenance.StopAndRepair | 本地盘实例原地维修事件 | 严重 |
| 当阿里云识别到ECS实例的底层宿主机存在硬件故障风险,在系统维护计划执行时间前48~168小时发送该系统事件。 | 建议您选择合适的时间授权维修本地盘实例或重新部署本地盘实例。 说明 详细的运维流程说明,请参见本地盘实例运维场景和系统事件。 |
SystemMaintenance.CleanReleasedDisks | EBS热插拔失败后的清理事件 | 警告 |
| 当阿里云识别到ECS实例的操作系统中存在因欠费被释放的一块或多块云盘的配置信息时,发送该系统事件。 | 建议您选择合适的时间,授权阿里云清理已释放云盘的配置信息。 重要 阿里云会在您授权的指定时间对该实例进行关机,然后对云盘进行清理,清理完成后再次开机。 |
非预期运维事件
事件Code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
SystemFailure.Reboot | 因系统错误实例重启 | 严重 |
| 当阿里云识别到ECS实例因底层宿主机出现了非预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。 | 建议您等待实例自动重启完成,然后检查实例和应用是否正常。 重启过程中,阿里云会将该实例迁移到其他健康的宿主机上。 说明 您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。 |
InstanceFailure.Reboot | 实例因操作系统错误需重启 | 严重 |
| 当阿里云识别到ECS实例因操作系统内部出现夯机,包括OOM、蓝屏、卡死、不停打印串口日志或内核panic问题时,立即发送该系统事件。 | 建议您等待实例自动重启完成,然后检查实例和应用是否正常。 您可以开启操作系统的Kdump服务,排查崩溃原因,避免再次引发同类问题。具体操作,请参见Linux实例如何开启Kdump服务或开启Windows实例的内核转储(Kernel Memory Dump)功能。 |
SystemFailure.Stop | 因系统错误实例停止 | 严重 |
| 当阿里云识别到ECS实例因底层宿主机出现了软硬件故障(如CPU、内存硬件损坏等)被关机时,立即发送该系统事件。 | 建议您等待实例自动停止完成,然后启动实例。 启动实例时,阿里云会将该实例迁移到其他健康的宿主机上。 说明 您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。 |
SystemFailure.Redeploy | 因系统错误实例重新部署 | 严重 |
| 当阿里云识别到ECS实例因底层宿主机出现了软硬件故障需要重新部署本地盘实例时,立即发送该系统事件。 说明 仅依赖宿主机硬件的实例支持此类事件,例如挂载本地盘或支持SGX加密计算的实例。 | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式:
说明 您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。 |
SystemFailure.Delete | 因实例创建失败账单自动取消 | 严重 |
| 当阿里云识别到ECS实例在创建,虽然下单成功但是实例创建失败时,立即发送该系统事件。 | 建议您等待系统自动释放实例,通常在创建失败五分钟内自动释放。 说明 如果您已经完成订单支付,在实例释放后会收到相应的退款。 为提高实例创建成功率,建议您:
|
ErrorDetected | 本地磁盘出现损坏告警 | 严重 |
| 当阿里云识别到ECS实例的本地盘出现了非预期的软硬件损坏,导致该磁盘无法正常进行读写时,立即发送该系统事件。 | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后选择合适的时间操作隔离坏盘并恢复本地盘。 根据实例规格的不同,支持的操作也不同,具体说明如下:
说明 详细的运维流程说明,请参见本地盘实例运维场景③。 |
Stalled | 磁盘性能受到严重影响 | 严重 |
| 当阿里云识别到ECS实例所挂载云盘出现IO夯,导致云盘性能受到严重影响,无法进行正常读写时,立即发送该系统事件。 | 建议您在应用层隔离对该云盘的读写操作,或从负载均衡实例中暂时移除该实例。 |
实例因底层升级需迁移事件
事件Code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
SystemUpgrade.Migrate | 实例因底层升级需迁移 | 严重 | 未定义 | 如果阿里云升级和改造物理基础设施时,可能影响对应地域和可用区中的实例,将提前向您发送该系统事件。 | 建议您登录ECS控制台查看系统事件详情,并按照提示迁移实例。具体操作,请参见实例因底层升级需迁移。 |
突发性能实例性能受限事件
事件Code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
Instance:BurstablePerformanceRestricted | 突发性能实例性能受限 | 警告 | Instance:BurstablePerformanceRestricted:突发性能实例性能受限 | 突发性能实例累积CPU积分为0时,立即发送该系统事件。 | 建议您根据需要选择一种响应方式:
如果您需要自定义触发通知的阈值,例如希望在累积CPU积分连续10分钟小于10时收到通知,可以在云监控控制台设置阈值报警规则。具体操作,请参见监控突发性能实例。 |
状态变化事件
事件Code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
Instance:PreemptibleInstanceInterruption | 抢占式实例中断通知 | 警告 | Instance:PreemptibleInstanceInterruption:抢占式实例中断通知 | 在抢占式实例被回收前5分钟发送该系统事件。 | 建议您:
|
Instance:ModifyInstanceSpec.Reboot | 实例因规格变更需重启生效 | 严重 |
| 在实例规格发生变更之后,需要通过重启实例来使新规格配置生效。在新订单生效后7天内,如用户未主动进行实例重启,系统会强制重启实例,将实例规格变更为预期规格。 | 建议您: |
Instance:PerformanceModeChange | 突发性能实例性能模式切换 | 警告 | Instance:PerformanceModeChange:突发性能实例性能模式切换 | 在突发性能实例从无性能约束模式切换为性能约束模式、或者从性能约束模式切换为无性能约束模式时,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Instance:StateChange | 实例状态改变通知 | 信息 | Instance:StateChange:实例状态改变通知 | 在实例状态发生改变时,例如从运行中变为停止中、从停止中变为已停止,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Instance:AutoReactivateCompleted | 完成自动重开机 | 信息 | Instance:AutoReactivateCompleted:完成自动重开机 | 在您结清了欠费账单且实例完成自动重开机时,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Instance:LiveMigrationAcrossDDH | 实例在专有宿主机间热迁移 | 信息 | Instance:LiveMigrationAcrossDDH:实例在专有宿主机间热迁移 | 在实例发生热迁移时,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Disk:DiskOperationCompleted | 磁盘操作完成 | 信息 | Disk:DiskOperationCompleted:磁盘操作完成 | 在手动挂载或卸载了按量付费磁盘时,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Disk:ConvertToPostpaidCompleted | 转换磁盘到按量付费完成 | 信息 | Disk:ConvertToPostpaidCompleted:转换磁盘到按量付费完成 | 在包年包月磁盘转换为按量付费磁盘时,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Snapshot:CreateSnapshotCompleted | 磁盘快照创建完成 | 信息 | Snapshot:CreateSnapshotCompleted:磁盘快照创建完成 | 在磁盘的快照创建完成时,产生该系统事件。 | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。 |
Snapshot:SnapshotDeleted | 快照删除完成事件 | 信息 | Snapshot:SnapshotDeleted:快照删除完成事件 | 在手动快照或自动快照删除完成时,产生该系统事件。 | 无 |