全部产品
Search
文档中心

:数据库计划内事件通用说明

更新时间:Nov 14, 2024

为提供持续、稳定且优质的云数据库服务,我们可能会对您的部分实例发起计划运维事件进行软硬件、配置升级和网络换代升级,事件类型涉及实例迁移、主备切换、版本升级、参数调整等。运维事件通常会产生实例连接闪断影响,请确保业务应用具备断线重连机制。实际影响请以各事件对应的具体影响说明为准。

事件通知说明

计划内事件通常会提前1~3天根据消息中心相关配置(消息接收管理 > 基本接收管理 > 云数据库故障或运维通知)下发邮件通知到消息订阅人,请确保您的主账号配置了正确的接收人并开启邮件通道订阅。当您接收到标题为“数据库计划内运维事件通知”的通知后,您可以在对应产品控制台的事件中心(或事件管理)的计划内事件页面中查看具体的事件类型、地域、原因、取消风险以及涉及的实例列表,也可以根据需要调整实例计划切换时间为业务低峰期。

注意事项

  • 事件按紧急程度不同分为两类:

    • 【S0紧急级别】风险修复:通常是非预期的需要尽快修复避免故障的场景,因此其通知可能会提前3天或更早且允许修改计划切换时间的窗口更小,典型场景为紧急问题版本替换升级、宿主机异常修复、SSL证书过期升级等。

    • 【S1计划级别】系统维护:通常是低风险问题修复或有计划的软硬件升级换代,通常提前3天以上发送通知且允许用户取消事件。

  • 为了确保您能接收运维事件的预约通知,您需要登录消息中心,确保云数据库故障或运维通知的通知方式复选框处于选中状态并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到事件通知信息。通知方式为邮件、站内信,建议选中邮件,提高触达成功率。

    image.png

    图1 消息中心通知设置入口

    image

    图2 云数据库通知设置

  • 如您需要第一时间获知运维事件的动态或者希望通过事件驱动的方式做自定义运维自动化,您可以通过云监控平台配置系统事件订阅。云数据库会对运维事件的生命周期(预约、开始、完成、取消等)推送云监控系统事件。具体操作,请参见管理事件订阅(推荐),可订阅的云监控事件参见附录1 云监控相关系统事件

    云监控事件格式示例:

    {
      "eventId": "c864b30b-7f69-5f04-b0e7-8dfb0eabcfd9", // 事件ID,同一个事件的ID相同
      "product": "RDS",                                  // 产品代码
      "reason": "Host software/hardware upgrade",        // 事件原因
      "extra": {
        "impactZh": "实例闪断",                           // 事件影响
        "impactEn": "Transient instance disconnection",  // 事件影响
        "eventCode": "rds_apsaradb_transfer",            // 运维事件类型代码
        "eventNameEn": "Instance migration",             // 运维事件名称
        "eventNameZh": "实例迁移",                        // 运维事件名称   
        "switchTime": "2024-09-15T01:30:00+08:00",       // 计划切换时间,如果有切换即为实例连接闪断的时间
        "startTime": "2024-09-14T21:30:00+08:00",          // 计划开始时间,进入调度队列等待执行
        "cancelCode": "OutOfGoodPerfBySoftHardwareUpgrade", // 取消风险码,参见附录2: 详细原因码和取消风险
        "detailCode": "HostSoftHardwareUpgrade",            // 详细原因码,参见附录2: 详细原因码和取消风险
        "instanceInfo": ""
      },
      "instanceId": "rm-2ze9d66o65q1g02g6",             // 实例ID
      "eventType": "Maintenance",
      "instanceComment": "rm-2ze9d66o65q1g02g6",        // 实例别名
      "instanceType": "Instance",
      "publishTime": "2024-09-10T16:01:47+08:00"
    }

操作步骤

  1. 登录各产品管理控制台。

  2. 在左侧导航栏单击事件中心(原名:事件管理) > 计划内事件,并在控制台上方选择地域。

  3. 在计划内事件页面,可查看事件详细信息,默认显示的为计划中未完结的事件,查看历史已完结事件可以点击已完成已取消切换查询,事件属性的详细介绍如下:

    属性

    示例

    说明

    事件类型

    风险修复

    事件按紧急程度不同分为“风险修复”和“系统维护”。

    运行状态

    等待执行

    事件的调度状态,需要关注的状态如下:

    • 等待设置时间:事件的执行时间为空,需要您根据业务情况设置时间,如果截至最晚操作时间仍未设置时间,系统会自动取消且不会自动执行。

    • 等待执行:事件等待到达计划开始时间进入到调度阶段。

    • 执行中:事件进入调度执行,此时无法人工干预,如需紧急终止需要提工单(非标操作可能有未知风险)。

    • 成功结束:执行成功。

    • 已取消:执行失败或取消,常见取消原因。

      • 客户自主取消(UserCancel):用户在控制台或通过OpenAPI取消。

      • 客户响应超时(UserResponseTimeout):需要指定时间的事件超截止时间未设置时间,事件自动取消。

      • 数据库管控取消(SupervisorCancel):事件发起端主动取消。

      • 无需执行的规避性取消(AvoidCancel):风险已解除或实例当前状态已无需执行此事件,比如实例已经是最新版本无需再做升级。

      • 系统自动取消(AutoCancel):系统会对计划中事件定期巡检,如果实例不具备执行事件条件可能会被取消,比如当前实例状态异常无法下发动作。

      • 执行超时(ExecuteTimeout):事件进入执行队列未在预期时间内完结。

      • 执行失败(ExecuteFail):事件执行过程中有未知异常失败。

    事件类型

    小版本升级

    参见事件的类型与影响

    事件原因

    -

    参见附录2 详细原因码和取消风险

    业务影响

    实例闪断

    不同事件的业务影响不同,参见事件的类型与影响

    运维建议

    确认业务应用具备数据库自动重连机制并关注业务影响

    不同事件的运维建议不同,参见附录1 云监控相关系统事件

    计划开始时间

    -

    事件开始进入到调度队列的时间,在开始时间之前,此事件对实例无任何影响,过了开始时间您仍可正常访问数据库,但是无法执行实例级别的操作(例如变更配置、迁移可用区等);状态为“等待设置时间”时此时间为空。

    计划切换时间

    -

    主备或链路切换(如果有)的时间,通常指实例连接有闪断影响的时间;此时间是预估值,发生切换在此时间附近都符合预期,极端情况下,比如涉及回切可用区场景下可能有二次切换。

    说明

    考虑到事件调度、数据准备耗时等因素通常在切换之前需要一定的前置准备时间,因此开始时间和切换时间有一定间隔,不同数据库产品不同事件间隔可能不同。

    最晚操作时间

    -

    可设置切换时间的最晚时间,要调整的切换时间不能晚于此时间。

    是否可取消

    如需屏蔽本次事件您可以操作取消,通常“系统运维”类事件开放此功能。

    重要

    计划事件通常是云数据库管控系统定期巡检下发,当次取消后可能会在下个巡检周期有新事件下发,如果频繁取消也可能会出现风险升级,建议您根据业务情况选择合适时间执行而不是取消事件。取消后的风险参见附录2 详细原因码和取消风险

    是否可改时间

    绝大多数都可以调整事件执行时间,很少场景的高危风险紧急修复没有足够的执行时间调整窗口可能不允许调整时间。

  4. 修改计划事件(可选)

    可选中需要调整执行时间的记录,点击修改计划事件进入设置切换时间界面,支持两种修改方式:

    • 立即执行:即任务开始时间将设置为当前时间,随后进入执行队列立即执行。

    • 指定切换时间:根据可配置切换时间范围选择合适的时间点作为切换时间执行,开始时间将会根据切换时间自动计算,但新的开始时间不能早于当前时间,否则无法修改。

  5. 修改周期时间窗口(可选)

    点击事件列表右上角的“周期时间窗口配置”可进入周期时间窗口配置页面。

    计划内事件的执行时间通常是根据实例的运维时间自动计算的(参见设置可维护时间段 RDS|Tair/Redis|MongoDB|PolarDB),您也可以根据自己的运维需要自定义周期时间窗口,云数据库在后续发起新事件时会优先根据您设置的时间窗口编排计算执行时间。

    支持按月或周两个维度设置窗口,例如设置的周期切换时间为每周一、周二的02:00~03:00,云平台的计划事件窗口为本周二至下周日,则事件的切换时间会命中本周二的02:00~03:00和下周一的02:00~03:00,通常优先选择本周二切换。

    重要
    1. 此配置仅对未来新的事件有效,当前事件列表中的事件如果希望调整时间请点击“设置执行时间”

    2. 此配置仅作为辅助计算执行时间的配置且仅对事件类型为“系统维护”的事件有效,实际计算的执行时间请以事件列表的时间为准。

    3. 此配置为账号级别配置,配置后所有支持周期时间的数据库产品均会同步生效。

  1. 取消计划事件(可选)

    可选中需要取消的事件记录,点击取消计划事件进入取消界面,知晓取消风险后可点击确认发起取消。

事件的类型与影响

事件类型

影响类型

影响说明

实例迁移

实例闪断

进入 计划切换时间 后,将产生下述影响:

  • 实例或实例中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该实例在DMSDTS中的使用,操作完成后自动恢复正常。

主备切换

实例参数调整

主机风险修复

SSL证书更新

备份模式升级

可用区迁移

小版本升级

实例闪断

进入 计划切换时间 后,将产生下述影响:

  • 实例或实例中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该实例在DMSDTS中的使用,操作完成后自动恢复正常。

小版本号间的差异

不同的小版本号(内核版本号)更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品暂未开放小版本更新日志):

代理小版本升级

实例闪断

进入 计划切换时间 后,将产生下述影响:

  • 实例或实例中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该实例在DMSDTS中的使用,操作完成后自动恢复正常。

小版本号间的差异

不同的小版本号更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品没有代理节点或暂未开放代理节点更新日志):

网络升级

实例闪断

进入 计划切换时间 后,将产生下述影响:

  • 实例或实例中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该实例在DMSDTS中的使用,操作完成后自动恢复正常。

VIP直连影响

部分网络升级过程中可能涉及跨可用区迁移,实例的虚拟IP(VIP)地址会发生改变,如果客户端使用VIP连接云数据库将会引起连接中断。

说明

为避免影响,您应当使用实例提供的域名形式的连接地址,同时关闭应用及其所属服务器的DNS缓存。

存储网关升级

I/O 抖动

可能出现短暂的I/O抖动或SQL时延增加,影响的时间不超过3秒。

受影响实例

根据实例类型和引擎查看下表中对应的文档,了解待处理事件的原因及对应的影响,您还可以根据业务需求处理该事件(例如将 计划切换时间 延后至业务低峰期)。

重要
  • 如果系统提示的计划切换时间不合适,您可以将计划切换时间设定在该事件产生后30天内的某个时间点。

  • 如需第一时间获知待处理事件的动态(例如事件的产生和执行情况),您可以通过云监控平台配置事件报警。具体操作,请参见订阅事件通知

实例类型

引擎

相关文档

云数据库RDS

RDS MySQL

查看并管理待处理事件

RDS SQL Server

查看并管理待处理事件

RDS PostgreSQL

查看并管理待处理事件

RDS MariaDB

查看并管理待处理事件

云数据库PolarDB

PolarDB MySQL

查看并管理待处理事件

PolarDB O

查看并管理待处理事件

PolarDB PostgreSQL

查看并管理待处理事件

云原生分布式数据库PolarDB-X

不涉及

查看并管理待处理事件

云数据库Tair(兼容Redis)

不涉及

查看并管理计划内事件

常见问题

1 关于通知

为什么会收到运维事件通知?

为提供持续、稳定且优质的云数据库服务,我们可能会对您的部分实例发起计划运维事件进行软硬件、配置升级和网络换代升级,事件类型涉及实例迁移、主备切换、版本升级、参数调整等。如果您开启了实例的自动版本升级,您会定期收到小版本升级事件通知。

提前多长时间通知?为什么没有查到事件通知

根据事件紧急程度计划内事件通常都会提前1~3天对客发送通知,通道是邮件,可在消息中心查看具体通知接收人,可查找下历史一个月内的邮件,邮件标题关键字为“数据库计划内运维事件通知”。

为什么收到了数据库运维通知,在计划内事件中并没有看到事件?

  • 由于运营商的通知状态回调有一定延时,您收到通知后可以等1~3分钟尝试重新刷新计划内事件页面,另外,请注意需要切换到实例所在的正确地域。

  • 邮件标题关键字为“阿里云数据库网络升级通知”等非数据库计划内事件运维通知,是由底层网络等基础设施团队发起的软硬件升级,此类通常是集群或机房级别变更,并不是数据库实例级别变更,无法针对某个实例修改执行时间或取消,因此不会有计划内事件记录,且具体的影响和说明请以当次的邮件或站内信为准。

2 关于开始时间和切换时间

为什么过了事件开始时间实例上没有看到有任务执行?

  • 过了开始时间,事件进入调度队列等待执行,其中包括任务检查、环境初始化以及运维动作编排等环节,此时可能还没有下发实例级别任务,对实例可用性无任何影响,请耐心等待,您只需要关注切换时间。

  • 不同数据库产品不同变更事件对应的运维编排可能不同,过了开始时间下发任务的时机也不同,比如高可用实例的实例迁移过程通常为备库跨机重搭+主备切换+备库跨机重搭,如果只是做主实例迁移其迁移过程为主备切换+备库重搭,此时过了开始时间也不会立即下发任务,会持续等待到切换时间附近下发切换。

如何修改计划切换时间?

您可以通过控制台或API修改,具体操作参见修改计划事件(可选)和ModifyActiveOperationTasks。

为什么无法修改计划切换时间?

不支持修改计划切换时间的场景如下:

  • 事件状态为执行中。

  • 事件已经过了开始时间。

  • 当前时间晚于事件最晚操作时间。

  • 新的事件开始时间早于当前时间。

  • 事件自身不支持修改切换时间。

需要设置的切换时间不在可配置的时间范围内,如何延期执行?

按设定事件切换时间不能晚于“最晚操作时间”,此时间是系统定义的安全操作窗口,如果晚于此时间可能会有故障风险,建议优先在此时间之前执行。如已知晓风险仍需要延期,可以提工单修改。

可以预估迁移的结束时间吗?

当前仅展示迁移的开始时间和预估切换时间,由于受网络、任务队列、数据量大小等多种因素影响,无法预估结束的时间。

“等待设置时间”状态的事件如果在截止时间前未设置执行时间事件会自动执行吗?

不会,超过截止时间未设置时间会自动取消,系统判定如需继续变更会重新下发预约通知。

3 关于事件操作

如何取消事件?

通常不建议取消,您可以推迟计划切换时间,例如选择一个业务低峰期时间点来执行。如果您确实有取消事件的诉求,请参考操作步骤6. 可选:取消计划事件。

手动取消事件后,还会重复推送吗?

大部分事件是巡检系统周期性巡检下发的,如果手动取消当次事件,在一定静默期(1~30天不等)后可能会重复下发,具体下发周期可根据具体原因在附录2 详细原因码和取消风险查看(仅供参考)。

如何屏蔽计划内事件?

重要

计划内事件旨在提升服务质量和稳定性,强烈建议开启,屏蔽后可能有稳定性风险。

如已知晓风险仍需屏蔽,可提工单,但为了保障服务稳定性,对于紧急风险修复事件无法屏蔽,典型场景为:宿主机故障、磁盘满锁定、SSL证书过期升级等。

4 其他问题

如何确定事件已完成?

实例对应的变更动作完成后会从计划内事件中移除,可在已完成事件中查看,如需事件驱动地感知其状态可以参考注意事项3订阅云监控系统事件。

实例迁移事件会把实例迁移至其他可用区吗?

不会,实例的可用区、账号、网络、连接地址均不会发生变化。

附录1 云监控相关系统事件

事件代码

事件名称

触发时机

运维建议

Instance:SystemMaintenance.MinorVersionUpgrade:Scheduled

实例小版本升级(计划中)

发起小版本升级预约

事件未开始,实例可用性无影响。

Instance:SystemMaintenance.MinorVersionUpgrade:Executing

实例小版本升级(开始执行)

开始执行小版本升级

事件开始进入到执行队列,此状态下通常不允许人工干预,容易出现未知问题。

Instance:SystemMaintenance.MinorVersionUpgrade:Executed

实例小版本升级(执行完成)

完成小版本升级

事件执行成功,过程中可能有主备切换,请观察业务影响。

Instance:SystemMaintenance.MinorVersionUpgrade:Canceled

实例小版本升级(已取消)

小版本升级失败或取消

事件执行失败或因为部分原因(比如已经是最新版本无需升级)自动取消,实例可用性无影响。

Instance:SystemMaintenance.Transfer:Scheduled

实例迁移(计划中)

发起实例迁移预约

事件未开始,实例可用性无影响。

Instance:SystemMaintenance.Transfer:Executing

实例迁移(开始执行)

开始执行实例迁移

事件开始进入到执行队列,此状态下通常不允许人工干预,容易出现未知问题。

Instance:SystemMaintenance.Transfer:Executed

实例迁移(执行完成)

完成实例迁移

事件执行成功,过程中可能有主备切换,请观察业务影响。

Instance:SystemMaintenance.Transfer:Canceled

实例迁移(已取消)

实例迁移失败或取消

事件执行失败或因为部分原因(比如用户提前手动迁移过实例)自动取消,实例可用性无影响。

Instance:SystemMaintenance.ScheduledOperation:Scheduled

实例计划内事件(计划中)

其他计划运维事件预约

事件未开始,实例可用性无影响。

Instance:SystemMaintenance.ScheduledOperation:Executing

实例计划内事件(开始执行)

开始计划运维事件执行

事件开始进入到执行队列,此状态下通常不允许人工干预,容易出现未知问题。

Instance:SystemMaintenance.ScheduledOperation:Executed

实例计划内事件(执行完成)

完成计划运维事件

事件执行成功,过程中可能有主备切换,请观察业务影响。

Instance:SystemMaintenance.ScheduledOperation:Canceled

实例计划内事件(已取消)

计划运维事件执行失败或取消

实例可用性无影响。

更多信息,请参见支持的云产品及其系统事件

附录2 详细原因码和取消风险

详细原因码

详细原因描述

取消风险码

取消风险描述

补充说明

触发事件周期

InfraArchUpgrade

底层基础设施架构替换升级

OutOfGoodPerfByHardwareUpgrade

将无法体验软件升级后更好的性能和稳定性。

随着产品形态和底层依赖的计算、存储、网络等资源的架构升级换代,为了提升云产品的服务质量和稳定性而下发实例升级或迁移动作。

月/季度

EnhanceStabilityAndResUtil

提升实例稳定性和资源利用率

ImpactStabAndResContention

影响实例稳定性, 潜在影响为资源争抢, 内核漏洞, 性能低于预期。

-

不定期

KernalExceptionRepair

内核原因导致实例异常问题修复

RiskEscatateToFailure

风险可能升级为故障,影响实例可用性。

常见于内核紧急版本风险修复。

不定期

OldKernelVersionWithHardwareUpgrade

内核版本过期升级同时升级硬件资源

KernelVersionEndOfLife

内核版本生命周期结束,同时实例无法使用新功能和性能优化。

常见于例行版本更新升级。

月/季度

KernelBugFix

内核漏洞修复

RiskEscatateToFailure

风险可能升级为故障,影响实例可用性。

常见于内核紧急版本bugFix。

不定期

HostLoadHigh

宿主机负载高

HostLoadHighAffectStability

宿主机负载过高对实例的性能和稳定性存在一定影响。

常见于宿主机硬件风险规避。

不定期

SoftwareUpgrade

宿主机软件升级

OutOfGoodPerfByHardwareUpgrade

将无法体验软件升级后更好的性能和稳定性。

宿主机操作系统或依赖插件冷升级。

月/季度

HardwareUpgrade

底层硬件替换升级

OutOfGoodPerfBySoftwareUpgrade

将无法体验软件升级后更好的性能和稳定性。

宿主机硬件升级。

月/季度

HostSoftHardwareUpgrade

宿主机软件/硬件升级

OutOfGoodPerfBySoftHardwareUpgrade

将无法体验软件升级后更好的性能和稳定性。

宿主机软硬件升级。

月/季度

HostCPUException

宿主机CPU异常

RiskEscatateToFailure

风险可能升级为故障,影响实例可用性。

-

不定期

HostMemException

宿主机内存异常

RiskEscatateToFailure

风险可能升级为故障,影响实例可用性。

-

不定期

HostDiskException

宿主机磁盘异常

RiskEscatateToFailure

风险可能升级为故障,影响实例可用性。

-

不定期

KernelVersionWithServerlessUpgrade

内核版本升级,同时公测实例升级至正式版。

BetaVersionEndOfLife

公测版本生命周期结束,实例无法使用新功能和性能优化。

-

月/季度

ParamRiskRepairOrOptimize

参数风险修复或优化

UnknownRisks

可能导致未知风险。

常见于云数据库有不合理的参数设置而下发的自动调优。

月/季度

PGOldKernelVersionWithHardwareUpgrade

内核版本过期升级同时升级硬件资源,可能导致数据库端口和跨库连接串改变;由于Timescaledb、Postgis以及Ganos插件在版本过低情况下会不可用,因此会升级插件到最新版本。

KernelVersionEndOfLife

内核版本生命周期结束,同时实例无法使用新功能和性能优化。

-

月/季度

MaxScaleExceptionRepair

代理组件风险修复

RiskEscatateToFailure

风险可能升级为故障,影响实例可用性。

常见于代理服务的紧急版本风险修复。

不定期

OriginalNetWorkHasFlawWithSqlTimeoutAndDIsconnection

原网络模式存在缺陷,会导致慢sql超时报错以及偶发断连,升级之后可提高稳定性。

FlawNotResolvedAndAbnormalConnectionMayOccur

网络模式缺陷未解决,可能出现连接异常问题。

-

不定期

CKZKKernelResourceFlaws

原Zookeeper内核资源分配逻辑存在缺陷,导致CPU、内存等硬件资源无法充分利用,升级ZK内核版本之后可以提高资源利用率。

CKZKKernelResourceFlaws

内核资源分配缺陷仍然存在,可能导致ZK出现性能瓶颈。

仅适用于ClickHouse

不定期

CKZKBugExceptionRepair

旧版本Zookeeper内核存在bug,可能导致CK节点与ZK连接异常,从而导致实例不可用。新版本ZK内核进行了bug修复,升级之后可提高稳定性。

CKZKBugRisk

ZK内核bug未解决,仍存在CK节点与ZK连接异常风险,影响实例可用性。

仅适用于ClickHouse

不定期

附录3 事件类型

枚举值

中文描述

英文描述

rds_apsradb_transfer

实例迁移

Instance migration

rds_apsradb_upgrade

小版本升级

Minor version update

rds_apsaradb_network_upgrade

网络升级

Network upgrade

rds_apsaradb_ha

主备切换

Primary/secondary switchover

rds_apsaradb_ssl_update

SSL证书更新

SSL certificate update

rds_apsaradb_maxscale

代理小版本升级

Proxy minor version update

rds_apsaradb_modify_config

实例参数调整

Instance config modify

rds_apsaradb_major_upgrade

大版本升级

Major version update

其他

-

-