为提供持续、稳定且优质的云数据库服务,我们可能会对您的部分实例发起计划运维事件进行软硬件、配置升级和网络换代升级,事件类型涉及实例迁移、主备切换、版本升级、参数调整等。运维事件通常会产生实例连接闪断影响,请确保业务应用具备断线重连机制。实际影响请以各事件对应的具体影响说明为准。
事件通知说明
计划内事件通常会提前1~3天根据消息中心相关配置( )下发邮件通知到消息订阅人,请确保您的主账号配置了正确的接收人并开启邮件通道订阅。当您接收到标题为“数据库计划内运维事件通知”的通知后,您可以在对应产品控制台的事件中心(或事件管理)的计划内事件页面中查看具体的事件类型、地域、原因、取消风险以及涉及的实例列表,也可以根据需要调整实例计划切换时间为业务低峰期。
注意事项
事件按紧急程度不同分为两类:
【S0紧急级别】风险修复:通常是非预期的需要尽快修复避免故障的场景,因此其通知可能会提前3天或更早且允许修改计划切换时间的窗口更小,典型场景为紧急问题版本替换升级、宿主机异常修复、SSL证书过期升级等。
【S1计划级别】系统维护:通常是低风险问题修复或有计划的软硬件升级换代,通常提前3天以上发送通知且允许用户取消事件。
为了确保您能接收运维事件的预约通知,您需要登录消息中心,确保云数据库故障或运维通知的通知方式复选框处于选中状态并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到事件通知信息。通知方式为邮件、站内信,建议选中邮件,提高触达成功率。
图1 消息中心通知设置入口
图2 云数据库通知设置
如您需要第一时间获知运维事件的动态或者希望通过事件驱动的方式做自定义运维自动化,您可以通过云监控平台配置系统事件订阅。云数据库会对运维事件的生命周期(预约、开始、完成、取消等)推送云监控系统事件。具体操作,请参见管理事件订阅(推荐),可订阅的云监控事件参见附录1 云监控相关系统事件。
云监控事件格式示例:
{ "eventId": "c864b30b-7f69-5f04-b0e7-8dfb0eabcfd9", // 事件ID,同一个事件的ID相同 "product": "RDS", // 产品代码 "reason": "Host software/hardware upgrade", // 事件原因 "extra": { "impactZh": "实例闪断", // 事件影响 "impactEn": "Transient instance disconnection", // 事件影响 "eventCode": "rds_apsaradb_transfer", // 运维事件类型代码 "eventNameEn": "Instance migration", // 运维事件名称 "eventNameZh": "实例迁移", // 运维事件名称 "switchTime": "2024-09-15T01:30:00+08:00", // 计划切换时间,如果有切换即为实例连接闪断的时间 "startTime": "2024-09-14T21:30:00+08:00", // 计划开始时间,进入调度队列等待执行 "cancelCode": "OutOfGoodPerfBySoftHardwareUpgrade", // 取消风险码,参见附录2: 详细原因码和取消风险 "detailCode": "HostSoftHardwareUpgrade", // 详细原因码,参见附录2: 详细原因码和取消风险 "instanceInfo": "" }, "instanceId": "rm-2ze9d66o65q1g02g6", // 实例ID "eventType": "Maintenance", "instanceComment": "rm-2ze9d66o65q1g02g6", // 实例别名 "instanceType": "Instance", "publishTime": "2024-09-10T16:01:47+08:00" }
操作步骤
登录各产品管理控制台。
在左侧导航栏单击,并在控制台上方选择地域。
在计划内事件页面,可查看事件详细信息,默认显示的为计划中未完结的事件,查看历史已完结事件可以点击已完成或已取消切换查询,事件属性的详细介绍如下:
属性
示例
说明
事件类型
风险修复
事件按紧急程度不同分为“风险修复”和“系统维护”。
运行状态
等待执行
事件的调度状态,需要关注的状态如下:
等待设置时间:事件的执行时间为空,需要您根据业务情况设置时间,如果截至最晚操作时间仍未设置时间,系统会自动取消且不会自动执行。
等待执行:事件等待到达计划开始时间进入到调度阶段。
执行中:事件进入调度执行,此时无法人工干预,如需紧急终止需要提工单(非标操作可能有未知风险)。
成功结束:执行成功。
已取消:执行失败或取消,常见取消原因。
客户自主取消(UserCancel):用户在控制台或通过OpenAPI取消。
客户响应超时(UserResponseTimeout):需要指定时间的事件超截止时间未设置时间,事件自动取消。
数据库管控取消(SupervisorCancel):事件发起端主动取消。
无需执行的规避性取消(AvoidCancel):风险已解除或实例当前状态已无需执行此事件,比如实例已经是最新版本无需再做升级。
系统自动取消(AutoCancel):系统会对计划中事件定期巡检,如果实例不具备执行事件条件可能会被取消,比如当前实例状态异常无法下发动作。
执行超时(ExecuteTimeout):事件进入执行队列未在预期时间内完结。
执行失败(ExecuteFail):事件执行过程中有未知异常失败。
事件类型
小版本升级
参见事件的类型与影响。
事件原因
-
业务影响
实例闪断
不同事件的业务影响不同,参见事件的类型与影响。
运维建议
确认业务应用具备数据库自动重连机制并关注业务影响
不同事件的运维建议不同,参见附录1 云监控相关系统事件。
计划开始时间
-
事件开始进入到调度队列的时间,在开始时间之前,此事件对实例无任何影响,过了开始时间您仍可正常访问数据库,但是无法执行实例级别的操作(例如变更配置、迁移可用区等);状态为“等待设置时间”时此时间为空。
计划切换时间
-
主备或链路切换(如果有)的时间,通常指实例连接有闪断影响的时间;此时间是预估值,发生切换在此时间附近都符合预期,极端情况下,比如涉及回切可用区场景下可能有二次切换。
说明考虑到事件调度、数据准备耗时等因素通常在切换之前需要一定的前置准备时间,因此开始时间和切换时间有一定间隔,不同数据库产品不同事件间隔可能不同。
最晚操作时间
-
可设置切换时间的最晚时间,要调整的切换时间不能晚于此时间。
是否可取消
是
如需屏蔽本次事件您可以操作取消,通常“系统运维”类事件开放此功能。
重要计划事件通常是云数据库管控系统定期巡检下发,当次取消后可能会在下个巡检周期有新事件下发,如果频繁取消也可能会出现风险升级,建议您根据业务情况选择合适时间执行而不是取消事件。取消后的风险参见附录2 详细原因码和取消风险。
是否可改时间
是
绝大多数都可以调整事件执行时间,很少场景的高危风险紧急修复没有足够的执行时间调整窗口可能不允许调整时间。
修改计划事件(可选)
可选中需要调整执行时间的记录,点击修改计划事件进入设置切换时间界面,支持两种修改方式:
立即执行:即任务开始时间将设置为当前时间,随后进入执行队列立即执行。
指定切换时间:根据可配置切换时间范围选择合适的时间点作为切换时间执行,开始时间将会根据切换时间自动计算,但新的开始时间不能早于当前时间,否则无法修改。
修改周期时间窗口(可选)
点击事件列表右上角的“周期时间窗口配置”可进入周期时间窗口配置页面。
计划内事件的执行时间通常是根据实例的运维时间自动计算的(参见设置可维护时间段 RDS|Tair/Redis|MongoDB|PolarDB),您也可以根据自己的运维需要自定义周期时间窗口,云数据库在后续发起新事件时会优先根据您设置的时间窗口编排计算执行时间。
支持按月或周两个维度设置窗口,例如设置的周期切换时间为每周一、周二的02:00~03:00,云平台的计划事件窗口为本周二至下周日,则事件的切换时间会命中本周二的02:00~03:00和下周一的02:00~03:00,通常优先选择本周二切换。
重要此配置仅对未来新的事件有效,当前事件列表中的事件如果希望调整时间请点击“设置执行时间”
此配置仅作为辅助计算执行时间的配置且仅对事件类型为“系统维护”的事件有效,实际计算的执行时间请以事件列表的时间为准。
此配置为账号级别配置,配置后所有支持周期时间的数据库产品均会同步生效。
取消计划事件(可选)
可选中需要取消的事件记录,点击取消计划事件进入取消界面,知晓取消风险后可点击确认发起取消。
事件的类型与影响
事件类型 | 影响类型 | 影响说明 |
实例迁移 | 实例闪断 | |
主备切换 | ||
实例参数调整 | ||
主机风险修复 | ||
SSL证书更新 | ||
备份模式升级 | ||
可用区迁移 | ||
小版本升级 | 实例闪断 | |
小版本号间的差异 | 不同的小版本号(内核版本号)更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品暂未开放小版本更新日志):
| |
代理小版本升级 | 实例闪断 | |
小版本号间的差异 | 不同的小版本号更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品没有代理节点或暂未开放代理节点更新日志):
| |
网络升级 | 实例闪断 | |
VIP直连影响 | 部分网络升级过程中可能涉及跨可用区迁移,实例的虚拟IP(VIP)地址会发生改变,如果客户端使用VIP连接云数据库将会引起连接中断。 说明 为避免影响,您应当使用实例提供的域名形式的连接地址,同时关闭应用及其所属服务器的DNS缓存。 | |
存储网关升级 | I/O 抖动 | 可能出现短暂的I/O抖动或SQL时延增加,影响的时间不超过3秒。 |
受影响实例
根据实例类型和引擎查看下表中对应的文档,了解待处理事件的原因及对应的影响,您还可以根据业务需求处理该事件(例如将 计划切换时间 延后至业务低峰期)。
如果系统提示的计划切换时间不合适,您可以将计划切换时间设定在该事件产生后30天内的某个时间点。
如需第一时间获知待处理事件的动态(例如事件的产生和执行情况),您可以通过云监控平台配置事件报警。具体操作,请参见订阅事件通知。
实例类型 | 引擎 | 相关文档 |
不涉及 | ||
不涉及 |
常见问题
1 关于通知
2 关于开始时间和切换时间
3 关于事件操作
4 其他问题
附录1 云监控相关系统事件
事件代码 | 事件名称 | 触发时机 | 运维建议 |
Instance:SystemMaintenance.MinorVersionUpgrade:Scheduled | 实例小版本升级(计划中) | 发起小版本升级预约 | 事件未开始,实例可用性无影响。 |
Instance:SystemMaintenance.MinorVersionUpgrade:Executing | 实例小版本升级(开始执行) | 开始执行小版本升级 | 事件开始进入到执行队列,此状态下通常不允许人工干预,容易出现未知问题。 |
Instance:SystemMaintenance.MinorVersionUpgrade:Executed | 实例小版本升级(执行完成) | 完成小版本升级 | 事件执行成功,过程中可能有主备切换,请观察业务影响。 |
Instance:SystemMaintenance.MinorVersionUpgrade:Canceled | 实例小版本升级(已取消) | 小版本升级失败或取消 | 事件执行失败或因为部分原因(比如已经是最新版本无需升级)自动取消,实例可用性无影响。 |
Instance:SystemMaintenance.Transfer:Scheduled | 实例迁移(计划中) | 发起实例迁移预约 | 事件未开始,实例可用性无影响。 |
Instance:SystemMaintenance.Transfer:Executing | 实例迁移(开始执行) | 开始执行实例迁移 | 事件开始进入到执行队列,此状态下通常不允许人工干预,容易出现未知问题。 |
Instance:SystemMaintenance.Transfer:Executed | 实例迁移(执行完成) | 完成实例迁移 | 事件执行成功,过程中可能有主备切换,请观察业务影响。 |
Instance:SystemMaintenance.Transfer:Canceled | 实例迁移(已取消) | 实例迁移失败或取消 | 事件执行失败或因为部分原因(比如用户提前手动迁移过实例)自动取消,实例可用性无影响。 |
Instance:SystemMaintenance.ScheduledOperation:Scheduled | 实例计划内事件(计划中) | 其他计划运维事件预约 | 事件未开始,实例可用性无影响。 |
Instance:SystemMaintenance.ScheduledOperation:Executing | 实例计划内事件(开始执行) | 开始计划运维事件执行 | 事件开始进入到执行队列,此状态下通常不允许人工干预,容易出现未知问题。 |
Instance:SystemMaintenance.ScheduledOperation:Executed | 实例计划内事件(执行完成) | 完成计划运维事件 | 事件执行成功,过程中可能有主备切换,请观察业务影响。 |
Instance:SystemMaintenance.ScheduledOperation:Canceled | 实例计划内事件(已取消) | 计划运维事件执行失败或取消 | 实例可用性无影响。 |
更多信息,请参见支持的云产品及其系统事件。
附录2 详细原因码和取消风险
详细原因码 | 详细原因描述 | 取消风险码 | 取消风险描述 | 补充说明 | 触发事件周期 |
InfraArchUpgrade | 底层基础设施架构替换升级 | OutOfGoodPerfByHardwareUpgrade | 将无法体验软件升级后更好的性能和稳定性。 | 随着产品形态和底层依赖的计算、存储、网络等资源的架构升级换代,为了提升云产品的服务质量和稳定性而下发实例升级或迁移动作。 | 月/季度 |
EnhanceStabilityAndResUtil | 提升实例稳定性和资源利用率 | ImpactStabAndResContention | 影响实例稳定性, 潜在影响为资源争抢, 内核漏洞, 性能低于预期。 | - | 不定期 |
KernalExceptionRepair | 内核原因导致实例异常问题修复 | RiskEscatateToFailure | 风险可能升级为故障,影响实例可用性。 | 常见于内核紧急版本风险修复。 | 不定期 |
OldKernelVersionWithHardwareUpgrade | 内核版本过期升级同时升级硬件资源 | KernelVersionEndOfLife | 内核版本生命周期结束,同时实例无法使用新功能和性能优化。 | 常见于例行版本更新升级。 | 月/季度 |
KernelBugFix | 内核漏洞修复 | RiskEscatateToFailure | 风险可能升级为故障,影响实例可用性。 | 常见于内核紧急版本bugFix。 | 不定期 |
HostLoadHigh | 宿主机负载高 | HostLoadHighAffectStability | 宿主机负载过高对实例的性能和稳定性存在一定影响。 | 常见于宿主机硬件风险规避。 | 不定期 |
SoftwareUpgrade | 宿主机软件升级 | OutOfGoodPerfByHardwareUpgrade | 将无法体验软件升级后更好的性能和稳定性。 | 宿主机操作系统或依赖插件冷升级。 | 月/季度 |
HardwareUpgrade | 底层硬件替换升级 | OutOfGoodPerfBySoftwareUpgrade | 将无法体验软件升级后更好的性能和稳定性。 | 宿主机硬件升级。 | 月/季度 |
HostSoftHardwareUpgrade | 宿主机软件/硬件升级 | OutOfGoodPerfBySoftHardwareUpgrade | 将无法体验软件升级后更好的性能和稳定性。 | 宿主机软硬件升级。 | 月/季度 |
HostCPUException | 宿主机CPU异常 | RiskEscatateToFailure | 风险可能升级为故障,影响实例可用性。 | - | 不定期 |
HostMemException | 宿主机内存异常 | RiskEscatateToFailure | 风险可能升级为故障,影响实例可用性。 | - | 不定期 |
HostDiskException | 宿主机磁盘异常 | RiskEscatateToFailure | 风险可能升级为故障,影响实例可用性。 | - | 不定期 |
KernelVersionWithServerlessUpgrade | 内核版本升级,同时公测实例升级至正式版。 | BetaVersionEndOfLife | 公测版本生命周期结束,实例无法使用新功能和性能优化。 | - | 月/季度 |
ParamRiskRepairOrOptimize | 参数风险修复或优化 | UnknownRisks | 可能导致未知风险。 | 常见于云数据库有不合理的参数设置而下发的自动调优。 | 月/季度 |
PGOldKernelVersionWithHardwareUpgrade | 内核版本过期升级同时升级硬件资源,可能导致数据库端口和跨库连接串改变;由于Timescaledb、Postgis以及Ganos插件在版本过低情况下会不可用,因此会升级插件到最新版本。 | KernelVersionEndOfLife | 内核版本生命周期结束,同时实例无法使用新功能和性能优化。 | - | 月/季度 |
MaxScaleExceptionRepair | 代理组件风险修复 | RiskEscatateToFailure | 风险可能升级为故障,影响实例可用性。 | 常见于代理服务的紧急版本风险修复。 | 不定期 |
OriginalNetWorkHasFlawWithSqlTimeoutAndDIsconnection | 原网络模式存在缺陷,会导致慢sql超时报错以及偶发断连,升级之后可提高稳定性。 | FlawNotResolvedAndAbnormalConnectionMayOccur | 网络模式缺陷未解决,可能出现连接异常问题。 | - | 不定期 |
CKZKKernelResourceFlaws | 原Zookeeper内核资源分配逻辑存在缺陷,导致CPU、内存等硬件资源无法充分利用,升级ZK内核版本之后可以提高资源利用率。 | CKZKKernelResourceFlaws | 内核资源分配缺陷仍然存在,可能导致ZK出现性能瓶颈。 | 仅适用于ClickHouse | 不定期 |
CKZKBugExceptionRepair | 旧版本Zookeeper内核存在bug,可能导致CK节点与ZK连接异常,从而导致实例不可用。新版本ZK内核进行了bug修复,升级之后可提高稳定性。 | CKZKBugRisk | ZK内核bug未解决,仍存在CK节点与ZK连接异常风险,影响实例可用性。 | 仅适用于ClickHouse | 不定期 |
附录3 事件类型
枚举值 | 中文描述 | 英文描述 |
rds_apsradb_transfer | 实例迁移 | Instance migration |
rds_apsradb_upgrade | 小版本升级 | Minor version update |
rds_apsaradb_network_upgrade | 网络升级 | Network upgrade |
rds_apsaradb_ha | 主备切换 | Primary/secondary switchover |
rds_apsaradb_ssl_update | SSL证书更新 | SSL certificate update |
rds_apsaradb_maxscale | 代理小版本升级 | Proxy minor version update |
rds_apsaradb_modify_config | 实例参数调整 | Instance config modify |
rds_apsaradb_major_upgrade | 大版本升级 | Major version update |
其他 | - | - |