全部产品
Search
文档中心

云服务器 ECS:ECS系统事件汇总

更新时间:May 27, 2024

系统事件用于记录和通知云资源信息,例如运维任务执行情况、资源是否出现异常和资源状态变化等。您可以通过系统事件获取ECS资源的风险和异常信息,例如实例因底层升级需迁移或因系统维护重启了某一实例等,然后及时响应和处理系统事件,避免因ECS资源可用性或性能受损而影响业务。本文汇总了云服务器ECS支持的系统事件(包括计划内运维事件、非预期运维事件、实例费用事件和实例状态变化事件等),并为各系统事件提供处理建议。

说明

如果事件Code列为未定义,例如实例状态改变通知(Instance:StateChange),代表该系统事件不支持通过ECS控制台和ECS事件OpenAPI查询。

计划内运维事件

重要

在实例操作系统内部进行重启操作时,无法使事件对应的维护动作生效。因此,本文涉及的重启实例操作指的是通过ECS控制台或调用API方式进行,具体操作,请参见重启实例RebootInstance - 重启实例

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

SystemMaintenance.Reboot

因系统维护实例重启

严重

  • Instance:SystemMaintenance.Reboot:Inquiring:因系统维护实例需重启问询中

  • Instance:SystemMaintenance.Reboot:Scheduled:因系统维护实例重启计划中

  • Instance:SystemMaintenance.Reboot:Executing:因系统维护实例重启执行中

  • Instance:SystemMaintenance.Reboot:Executed:因系统维护实例重启已完成

  • Instance:SystemMaintenance.Reboot:Avoided:因系统维护实例重启已规避

  • Instance:SystemMaintenance.Reboot:Failed:因系统维护实例重启失败

  • Instance:SystemMaintenance.Reboot:Canceled:因系统维护实例重启已取消

阿里云检测到ECS实例所在的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重启,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。

建议您根据需要选择一种响应方式:

说明
  • 建议您关注事件的状态变化,如果重启实例后事件的状态没有发生变化,说明该事件响应失败,风险还未解除,建议您稍后选择一个合适的时间(建议与本次操作间隔12小时以上)重启实例,以规避该风险。

  • 您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性

SystemMaintenance.Stop

因系统维护实例停止

严重

  • Instance:SystemMaintenance.Stop:Scheduled:因系统维护实例停止计划中

  • Instance:SystemMaintenance.Stop:Executing:因系统维护实例停止执行中

  • Instance:SystemMaintenance.Stop:Executed:因系统维护实例停止已完成

  • Instance:SystemMaintenance.Stop:Avoided:因系统维护实例停止已规避

  • Instance:SystemMaintenance.Stop:Failed:因系统维护实例停止失败

  • Instance:SystemMaintenance.Stop:Canceled:因系统维护实例停止已取消

阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例关机并停止,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。

建议您根据需要选择一种响应方式:

  • 自行重新部署实例

  • 等待系统自动停止实例,然后自行执行后续动作,例如重新部署实例、根据需要选择其他方式等。

说明

您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性

SystemMaintenance.Redeploy

因系统维护实例重新部署

严重

  • Instance:SystemMaintenance.Redeploy:Inquiring:因系统维护实例需重新部署问询中

  • Instance:SystemMaintenance.Redeploy:Scheduled:因系统维护实例重新部署计划中

  • Instance:SystemMaintenance.Redeploy:Executing:因系统维护实例重新部署执行中

  • Instance:SystemMaintenance.Redeploy:Executed:因系统维护实例重新部署已完成

  • Instance:SystemMaintenance.Redeploy:Avoided:因系统维护实例重新部署已规避

  • Instance:SystemMaintenance.Redeploy:Canceled:因系统维护实例重新部署已取消

阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。

重要

使用了本地SSD盘或者本地HDD盘的实例会重新初始化数据盘,本地盘上的数据会被清空。

建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式:

说明
  • 建议您关注事件的状态变化,如果重新部署实例后事件的状态没有发生变化,说明该事件响应失败,风险还未解除,建议您稍后选择一个合适的时间(建议与本次操作间隔12小时以上)重新部署,以规避该风险。

  • 您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性

SystemMaintenance.IsolateErrorDisk

因系统维护隔离坏盘

严重

  • Instance:SystemMaintenance.IsolateErrorDisk:Inquiring:因系统维护隔离坏盘问询中

  • Instance:SystemMaintenance.IsolateErrorDisk:Executing:因系统维护隔离坏盘执行中

  • Instance:SystemMaintenance.IsolateErrorDisk:Executed:因系统维护隔离坏盘已完成

  • Instance:SystemMaintenance.IsolateErrorDisk:Avoided:因系统维护隔离坏盘已规避

  • Instance:SystemMaintenance.IsolateErrorDisk:Failed:因系统维护隔离坏盘失败

  • Instance:SystemMaintenance.IsolateErrorDisk:Canceled:因系统维护隔离坏盘已取消

阿里云检测到ECS实例的本地盘出现软硬件损坏时,立即发送该系统事件。

重要

根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。

建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后选择合适的时间授权隔离坏盘(在线隔离,无需重启实例)。

说明

详细的运维流程说明,请参见本地盘实例运维场景③

SystemMaintenance.ReInitErrorDisk

因系统维护重新初始化坏盘

严重

  • Instance:SystemMaintenance.ReInitErrorDisk:Inquiring:因系统维护重新初始化坏盘问询中

  • Instance:SystemMaintenance.ReInitErrorDisk:Executing:因系统维护重新初始化坏盘执行中

  • Instance:SystemMaintenance.ReInitErrorDisk:Executed:因系统维护重新初始化坏盘已完成

  • Instance:SystemMaintenance.ReInitErrorDisk:Avoided:因系统维护重新初始化坏盘已规避

  • Instance:SystemMaintenance.ReInitErrorDisk:Failed:因系统维护重新初始化坏盘失败

  • Instance:SystemMaintenance.ReInitErrorDisk:Canceled:因系统维护重新初始化坏盘已取消

阿里云检测到ECS实例的本地磁盘出现软硬件损坏,并且更换了本地盘实例所在宿主机上损坏的本地盘后,立即发送该系统事件,通常在您授权隔离坏盘后五个工作日内。

重要

根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。

建议您选择合适的时间授权恢复本地盘(在线恢复,无需重启实例)。

说明

详细的运维流程说明,请参见本地盘实例运维场景③

SystemMaintenance.RebootAndIsolateErrorDisk

因系统维护重启实例并隔离坏盘

严重

  • Instance:SystemMaintenance.RebootAndIsolateErrorDisk:Inquiring:因系统维护重启实例并隔离坏盘问询中

  • Instance:SystemMaintenance.RebootAndIsolateErrorDisk:Executing:因系统维护重启实例并隔离坏盘执行中

  • Instance:SystemMaintenance.RebootAndIsolateErrorDisk:Executed:因系统维护重启实例并隔离坏盘已完成

  • Instance:SystemMaintenance.RebootAndIsolateErrorDisk:Avoided:因系统维护重启实例并隔离坏盘已规避

  • Instance:SystemMaintenance.RebootAndIsolateErrorDisk:Canceled:因系统维护重启实例并隔离坏盘已取消

阿里云检测到ECS实例的本地磁盘出现软硬件损坏,在执行在线隔离坏盘失败时,立即发送该系统事件。

重要

根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。

建议您选择合适的时间授权隔离坏盘,并自行重启实例(离线隔离,需要重启实例)。

说明

详细的运维流程说明,请参见本地盘实例运维场景③

SystemMaintenance.RebootAndReInitErrorDisk

因系统维护重启实例并重新初始化坏盘

严重

  • Instance:SystemMaintenance.RebootAndReInitErrorDisk:Inquiring:因系统维护重启实例并重新初始化坏盘问询中

  • Instance:SystemMaintenance.RebootAndReInitErrorDisk:Executing:因系统维护重启实例并重新初始化坏盘执行中

  • Instance:SystemMaintenance.RebootAndReInitErrorDisk:Executed:因系统维护重启实例并重新初始化坏盘已完成

  • Instance:SystemMaintenance.RebootAndReInitErrorDisk:Avoided:因系统维护重启实例并重新初始化坏盘已规避

  • Instance:SystemMaintenance.RebootAndReInitErrorDisk:Canceled:因系统维护重启实例并重新初始化坏盘已取消

阿里云检测到ECS实例的本地磁盘出现软硬件损坏,在执行在线恢复本地盘失败时,立即发送该系统事件。

重要

根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。

建议您选择合适的时间授权恢复本地盘,并自行重启实例(离线恢复,需要重启实例)。

说明

详细的运维流程说明,请参见本地盘实例运维场景③

SystemMaintenance.StopAndRepair

本地盘实例原地维修事件

严重

  • Instance:SystemMaintenance.StopAndRepair:Inquiring:实例停机维修问询中

  • Instance:SystemMaintenance.StopAndRepair:Scheduled:实例停机维修计划中

  • Instance:SystemMaintenance.StopAndRepair:Executing:实例停机维修执行中

  • Instance:SystemMaintenance.StopAndRepair:Executed:实例停机维修已完成

  • Instance:SystemMaintenance.StopAndRepair:Avoided:实例停机维修已规避

当阿里云识别到ECS实例的底层宿主机存在硬件故障风险,在系统维护计划执行时间前48~168小时发送该系统事件。

建议您选择合适的时间授权维修本地盘实例或重新部署本地盘实例。

说明

详细的运维流程说明,请参见本地盘实例运维场景和系统事件

SystemMaintenance.CleanReleasedDisks

EBS热插拔失败后的清理事件

警告

  • Instance:SystemMaintenance.CleanReleasedDisks.Inquiring:EBS热插拔失败后的清理事件问询中

  • Instance:SystemMaintenance.CleanReleasedDisks.Executing:EBS热插拔失败后的清理事件执行中

  • Instance:SystemMaintenance.CleanReleasedDisks.Executed:EBS热插拔失败后的清理事件已完成

  • Instance:SystemMaintenance.CleanReleasedDisks.Failed:EBS热插拔失败后的清理事件已失败

当阿里云识别到ECS实例的操作系统中存在因欠费被释放的一块或多块云盘的配置信息时,发送该系统事件。

建议您选择合适的时间,授权阿里云清理已释放云盘的配置信息。

重要

阿里云会在您授权的指定时间对该实例进行关机,然后对云盘进行清理,清理完成后再次开机。

非预期运维事件

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

SystemFailure.Reboot

因系统错误实例重启

严重

  • Instance:SystemFailure.Reboot:Executing:因系统错误实例重启开始

  • Instance:SystemFailure.Reboot:Executed:因系统错误实例重启结束

  • Instance:SystemFailure.Reboot:Failed:因系统错误实例重启失败

当阿里云识别到ECS实例因底层宿主机出现了非预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。

建议您等待实例自动重启完成,然后检查实例和应用是否正常。

重启过程中,阿里云会将该实例迁移到其他健康的宿主机上。

说明

您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性

InstanceFailure.Reboot

实例因操作系统错误需重启

严重

  • Instance:InstanceFailure.Reboot:Scheduled:实例因操作系统错误需重启计划中

  • Instance:InstanceFailure.Reboot:Executing:实例因操作系统错误需重启开始

  • Instance:InstanceFailure.Reboot:Executed:实例因操作系统错误需重启结束

  • Instance:InstanceFailure.Reboot:Avoided:实例因操作系统错误需重启已规避

当阿里云识别到ECS实例因操作系统内部出现夯机,包括OOM、蓝屏、卡死、不停打印串口日志或内核panic问题时,立即发送该系统事件。

建议您等待实例自动重启完成,然后检查实例和应用是否正常。

您可以开启操作系统的Kdump服务,排查崩溃原因,避免再次引发同类问题。具体操作,请参见Linux实例如何开启Kdump服务开启Windows实例的内核转储(Kernel Memory Dump)功能

SystemFailure.Stop

因系统错误实例停止

严重

  • Instance:SystemFailure.Stop:Executing:因系统错误实例开始停止

  • Instance:SystemFailure.Stop:Executed:因系统错误实例已停止

当阿里云识别到ECS实例因底层宿主机出现了软硬件故障(如CPU、内存硬件损坏等)被关机时,立即发送该系统事件。

建议您等待实例自动停止完成,然后启动实例。

启动实例时,阿里云会将该实例迁移到其他健康的宿主机上。

说明

您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性

SystemFailure.Redeploy

因系统错误实例重新部署

严重

  • Instance:SystemFailure.Redeploy:Inquiring:因系统错误实例需重新部署问询中

  • Instance:SystemFailure.Redeploy:Scheduled:因系统错误实例重新部署计划中

  • Instance:SystemFailure.Redeploy:Executing:因系统错误实例重新部署执行中

  • Instance:SystemFailure.Redeploy:Executed:因系统错误实例重新部署已完成

  • Instance:SystemFailure.Redeploy:Avoided:因系统错误实例重新部署已规避

  • Instance:SystemFailure.Redeploy:Canceled:因系统错误实例重新部署已取消

当阿里云识别到ECS实例因底层宿主机出现了软硬件故障需要重新部署本地盘实例时,立即发送该系统事件。

说明

仅依赖宿主机硬件的实例支持此类事件,例如挂载本地盘或支持SGX加密计算的实例。

建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式:

说明

您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性

SystemFailure.Delete

因实例创建失败账单自动取消

严重

  • Instance:SystemFailure.Delete:Executing:因实例创建失败账单开始自动取消

  • Instance:SystemFailure.Delete:Executed:因实例创建失败账单已自动取消

  • Instance:SystemFailure.Delete:Avoided:因实例创建失败账单自动取消已规避

当阿里云识别到ECS实例在创建,虽然下单成功但是实例创建失败时,立即发送该系统事件。

建议您等待系统自动释放实例,通常在创建失败五分钟内自动释放。

说明

如果您已经完成订单支付,在实例释放后会收到相应的退款。

为提高实例创建成功率,建议您:

  • 在创建实例前,查询目标地域和可用区下的ECS实例供应情况、虚拟交换机中的私网IP数量,例如调用DescribeAvailableResource查询。

  • 使用弹性供应弹性伸缩,通过扩大资源池更灵活地交付实例。

ErrorDetected

本地磁盘出现损坏告警

严重

  • Disk:ErrorDetected:Executing:本地磁盘开始出现损坏告警

  • Disk:ErrorDetected:Executed:本地磁盘出现损坏告警结束

当阿里云识别到ECS实例的本地盘出现了非预期的软硬件损坏,导致该磁盘无法正常进行读写时,立即发送该系统事件。

建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后选择合适的时间操作隔离坏盘并恢复本地盘。

根据实例规格的不同,支持的操作也不同,具体说明如下:

  • d1、d1ne、d2s、d2c:支持在线隔离、离线隔离、在线维修、重新部署

  • d3c、d2c、i2、i2g、i2ne、i2gne、i3、i3g:支持在线隔离、离线隔离、重新部署

  • i1:支持重新部署

  • ebmi2g:支持授权维修、重新部署

说明

详细的运维流程说明,请参见本地盘实例运维场景③

Stalled

磁盘性能受到严重影响

严重

  • Disk:Stalled:Executing:磁盘性能开始受到严重影响

  • Disk:Stalled:Executed:磁盘性能受到严重影响已恢复

当阿里云识别到ECS实例所挂载云盘出现IO夯,导致云盘性能受到严重影响,无法进行正常读写时,立即发送该系统事件。

建议您在应用层隔离对该云盘的读写操作,或从负载均衡实例中暂时移除该实例。

实例因底层升级需迁移事件

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

SystemUpgrade.Migrate

实例因底层升级需迁移

严重

未定义

如果阿里云升级和改造物理基础设施时,可能影响对应地域和可用区中的实例,将提前向您发送该系统事件。

建议您登录ECS控制台查看系统事件详情,并按照提示迁移实例。具体操作,请参见实例因底层升级需迁移

突发性能实例性能受限事件

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

Instance:BurstablePerformanceRestricted

突发性能实例性能受限

警告

Instance:BurstablePerformanceRestricted:突发性能实例性能受限

突发性能实例累积CPU积分为0时,立即发送该系统事件。

建议您根据需要选择一种响应方式:

  • 如果临时需要使用更高的性能,临时开启无性能约束模式即可。具体操作,请参见打开/关闭无性能约束模式

  • 如果长期需要使用更高的性能,建议升级实例至更大的规格或非突发型的规格。具体操作,请参见修改实例规格

如果您需要自定义触发通知的阈值,例如希望在累积CPU积分连续10分钟小于10时收到通知,可以在云监控控制台设置阈值报警规则。具体操作,请参见监控突发性能实例

状态变化事件

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

Instance:PreemptibleInstanceInterruption

抢占式实例中断通知

警告

Instance:PreemptibleInstanceInterruption:抢占式实例中断通知

在抢占式实例被回收前5分钟发送该系统事件。

建议您:

  • 在无状态的应用场景中使用抢占式实例,例如可弹性伸缩的Web站点服务、大数据分析。

  • 使用弹性供应交付实例,缓解抢占式实例被回收对业务的影响。您也可以基于该系统事件自行实现自动化运维,例如在云监控中设置事件通知,依赖事件通知触发自动购买新的抢占式实例。

Instance:ModifyInstanceSpec.Reboot

实例因规格变更需重启生效

严重

  • Instance:ModifyInstanceSpec.Reboot:Scheduled 实例因规格变更即将被重启

  • Instance:ModifyInstanceSpec.Reboot:Executing 实例因规格变更重启中

  • Instance:ModifyInstanceSpec.Reboot:Executed 实例规格变更已生效

  • Instance:ModifyInstanceSpec.Reboot:Avoid 实例因规格变更重启已规避

在实例规格发生变更之后,需要通过重启实例来使新规格配置生效。在新订单生效后7天内,如用户未主动进行实例重启,系统会强制重启实例,将实例规格变更为预期规格。

建议您:

Instance:PerformanceModeChange

突发性能实例性能模式切换

警告

Instance:PerformanceModeChange:突发性能实例性能模式切换

在突发性能实例从无性能约束模式切换为性能约束模式、或者从性能约束模式切换为无性能约束模式时,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Instance:StateChange

实例状态改变通知

信息

Instance:StateChange:实例状态改变通知

在实例状态发生改变时,例如从运行中变为停止中、从停止中变为已停止,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Instance:AutoReactivateCompleted

完成自动重开机

信息

Instance:AutoReactivateCompleted:完成自动重开机

在您结清了欠费账单且实例完成自动重开机时,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Instance:LiveMigrationAcrossDDH

实例在专有宿主机间热迁移

信息

Instance:LiveMigrationAcrossDDH:实例在专有宿主机间热迁移

在实例发生热迁移时,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Disk:DiskOperationCompleted

磁盘操作完成

信息

Disk:DiskOperationCompleted:磁盘操作完成

在手动挂载或卸载了按量付费磁盘时,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Disk:ConvertToPostpaidCompleted

转换磁盘到按量付费完成

信息

Disk:ConvertToPostpaidCompleted:转换磁盘到按量付费完成

在包年包月磁盘转换为按量付费磁盘时,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Snapshot:CreateSnapshotCompleted

磁盘快照创建完成

信息

Snapshot:CreateSnapshotCompleted:磁盘快照创建完成

在磁盘的快照创建完成时,产生该系统事件。

建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知

Snapshot:SnapshotDeleted

快照删除完成事件

信息

Snapshot:SnapshotDeleted:快照删除完成事件

在手动快照或自动快照删除完成时,产生该系统事件。