全部產品
Search
文件中心

PolarDB:查看並管理計劃內事件

更新時間:Mar 29, 2025

PolarDB計劃內的營運事件(例如資料庫軟體升級、硬體維護與升級)除了會通過簡訊、語音、郵件或站內信通知您,還會在控制台上進行通知。您可以在計劃內事件中,查看具體的事件類型、任務ID、叢集名稱、切換時間等,也可以手動修改切換時間。

注意事項

  • 事件按緊急程度不同分為兩類:

    • 【S0緊急層級】風險修複:通常是非預期的需要儘快修複避免故障的情境,因此其通知可能會提前3天或更早且允許修改計劃切換時間的視窗更小,典型情境為緊急問題版本替換升級、宿主機異常修複、SSL認證到期升級等。

    • 【S1計劃層級】系統維護:通常是低風險問題修複或有計劃的軟硬體升級換代,通常提前3天以上發送通知且允許使用者取消事件。

  • 為了確保您能接收營運事件的預約通知,您需要登入訊息中心,確保雲資料庫故障或營運通知的通知方式複選框處於選中狀態並設定訊息接收人(推薦設定為資料庫營運人員),否則您將無法收到事件通知資訊。通知方式為郵件、站內信,建議選中郵件,提高觸達成功率。

    image.png

    圖1 訊息中心通知設定入口

    image

    圖2 雲資料庫通知設定

  • 如您需要第一時間獲知營運事件的動態或者希望通過事件驅動的方式做自訂營運自動化,您可以通過CloudMonitor平台配置系統事件訂閱。雲資料庫會對營運事件的生命週期(預約、開始、完成、取消等)推送CloudMonitor系統事件。具體操作,請參見管理事件訂閱(推薦),可訂閱的CloudMonitor事件參見附錄1 CloudMonitor相關係統事件

    CloudMonitor事件格式樣本:

    {
      "eventId": "c864b30b-7f69-5f04-b0e7-8dfb0eabcfd9", // 事件ID,同一個事件的ID相同
      "product": "RDS",                                  // 產品代碼
      "reason": "Host software/hardware upgrade",        // 事件原因
      "extra": {
        "impactZh": "執行個體閃斷",                           // 事件影響
        "impactEn": "Transient instance disconnection",  // 事件影響
        "eventCode": "rds_apsaradb_transfer",            // 營運事件類型代碼
        "eventNameEn": "Instance migration",             // 營運事件名稱
        "eventNameZh": "執行個體遷移",                        // 營運事件名稱   
        "switchTime": "2024-09-15T01:30:00+08:00",       // 計劃切換時間,如果有切換即為執行個體串連閃斷的時間
        "startTime": "2024-09-14T21:30:00+08:00",          // 計劃開始時間,進入調度隊列等待執行
        "cancelCode": "OutOfGoodPerfBySoftHardwareUpgrade", // 取消風險碼,參見附錄2: 詳細原因碼和取消風險
        "detailCode": "HostSoftHardwareUpgrade",            // 詳細原因碼,參見附錄2: 詳細原因碼和取消風險
        "instanceInfo": ""
      },
      "instanceId": "rm-2ze9d66o65q1g02g6",             // 執行個體ID
      "eventType": "Maintenance",
      "instanceComment": "rm-2ze9d66o65q1g02g6",        // 執行個體別名
      "instanceType": "Instance",
      "publishTime": "2024-09-10T16:01:47+08:00"
    }

操作步驟

  1. 登入各產品管理主控台。

  2. 在左側導覽列單擊事件中心(原名:事件管理) > 計劃內事件,並在控制台上方選擇地區。

  3. 在計劃內事件頁面,可查看事件詳細資料,預設顯示的為計劃中未完結的事件,查看歷史已完結事件可以點擊已完成已取消切換查詢,事件屬性的詳細介紹如下:

    屬性

    樣本

    說明

    事件類型

    風險修複

    事件按緊急程度不同分為“風險修複”和“系統維護”。

    運行狀態

    等待執行

    事件的調度狀態,需要關注的狀態如下:

    • 等待設定時間:事件的執行時間為空白,需要您根據業務情況設定時間,如果截至最晚操作時間仍未設定時間,系統會自動取消且不會自動執行。

    • 等待執行:事件等待到達計劃開始時間進入到調度階段。

    • 執行中:事件進入調度執行,此時無法人工幹預,如需緊急終止需要提工單(非標操作可能有未知風險)。

    • 成功結束:執行成功。

    • 已取消:執行失敗或取消,常見取消原因。

      • 客戶自主取消(UserCancel):使用者在控制台或通過OpenAPI取消。

      • 客戶響應逾時(UserResponseTimeout):需要指定時間的事件超截止時間未設定時間,事件自動取消。

      • 資料庫管控取消(SupervisorCancel):事件發起端主動取消。

      • 無需執行的規避性取消(AvoidCancel):風險已解除或執行個體目前狀態已無需執行此事件,比如執行個體已經是最新版本無需再做升級。

      • 系統自動取消(AutoCancel):系統會對計劃中事件定期巡檢,如果執行個體不具備執行事件條件可能會被取消,比如當前執行個體狀態異常無法下發動作。

      • 執行逾時(ExecuteTimeout):事件進入執行隊列未在預期時間內完結。

      • 執行失敗(ExecuteFail):事件執行過程中有未知異常失敗。

    事件類型

    小版本升級

    參見事件的類型與影響

    事件原因

    -

    參見附錄2 詳細原因碼和取消風險

    業務影響

    執行個體閃斷

    不同事件的業務影響不同,參見事件的類型與影響

    營運建議

    確認業務應用具備資料庫自動重連機制並關注業務影響

    不同事件的營運建議不同,參見附錄1 CloudMonitor相關係統事件

    計劃開始時間

    -

    事件開始進入到調度隊列的時間,在開始時間之前,此事件對執行個體無任何影響,過了開始時間您仍可正常訪問資料庫,但是無法執行執行個體層級的操作(例如變更配置、遷移可用性區域等);狀態為“等待設定時間”時此時間為空白。

    計劃切換時間

    -

    主備或鏈路切換(如果有)的時間,通常指執行個體串連有閃斷影響的時間;此時間是預估值,發生切換在此時間附近都符合預期,極端情況下,比如涉及回切可用性區域情境下可能有二次切換。

    說明

    考慮到事件調度、資料準備耗時等因素通常在切換之前需要一定的前置準備時間,因此開始時間和切換時間有一定間隔,不同資料庫產品不同事件間隔可能不同。

    最晚操作時間

    -

    可設定切換時間的最晚時間,要調整的切換時間不能晚於此時間。

    是否可取消

    如需屏蔽本次事件您可以操作取消,通常“系統營運”類事件開放此功能。

    重要

    計劃事件通常是雲資料庫管控系統定期巡檢下發,當次取消後可能會在下個巡檢周期有新事件下發,如果頻繁取消也可能會出現風險升級,建議您根據業務情況選擇合適時間執行而不是取消事件。取消後的風險參見附錄2 詳細原因碼和取消風險

    是否可改時間

    絕大多數都可以調整事件執行時間,很少情境的高危風險緊急修複沒有足夠的執行時間調整視窗可能不允許調整時間。

  4. 修改計劃事件(可選)

    可選中需要調整執行時間的記錄,點擊修改計劃事件進入設定切換時間介面,支援兩種修改方式:

    • 立即執行:即任務開始時間將設定為目前時間,隨後進入執行隊列立即執行。

    • 指定切換時間:根據可配置切換時間範圍選擇合適的時間點作為切換時間執行,開始時間將會根據切換時間自動計算,但新的開始時間不能早於目前時間,否則無法修改。

  5. 修改周期時間視窗(可選)

    點擊事件列表右上方的“周期時間視窗配置”可進入周期時間視窗配置頁面。

    計劃內事件的執行時間通常是根據執行個體的營運時間自動計算的(參見設定可維護時間段 RDS|Tair/Redis|MongoDB|PolarDB),您也可以根據自己的營運需要自訂周期時間視窗,雲資料庫在後續發起新事件時會優先根據您設定的時間視窗編排計算執行時間。

    支援按月或周兩個維度設定視窗,例如設定的周期切換時間為每周一、周二的02:00~03:00,雲平台的計劃事件視窗為本周二至下周日,則事件的切換時間會命中本周二的02:00~03:00和下周一的02:00~03:00,通常優先選擇本周二切換。

    重要
    1. 此配置僅對未來新的事件有效,當前事件列表中的事件如果希望調整時間請點擊“設定執行時間”

    2. 此配置僅作為輔助計算執行時間的配置且僅對事件類型為“系統維護”的事件有效,實際計算的執行時間請以事件列表的時間為準。

    3. 此配置為帳號層級配置,配置後所有支援周期時間的資料庫產品均會同步生效。

  6. 取消計劃事件(可選)

    可選中需要取消的事件記錄,點擊取消計劃事件進入取消介面,知曉取消風險後可點擊確認發起取消。

事件的類型與影響

事件類型

影響類型

影響說明

叢集遷移

說明

因主機風險、硬體過保或作業系統升級而發起的計劃內營運操作,系統會將叢集遷移至新的伺服器節點,包含非高可用叢集和唯讀叢集。

叢集閃斷

進入計劃切換時間後,將產生下述影響:

說明

待處理事件通常會產生叢集切換操作,該操作將在計劃切換時間之後的叢集可維護時間段執行。

  • 叢集或叢集中涉及切換的分區將發生串連閃斷及30秒以內的唯讀狀態(用於等待資料完全同步),請在業務低峰期執行,並確保應用程式具備重連機制。

  • 短暫影響該叢集在DMSDTS中的使用,操作完成後自動回復正常。

主備切換

說明

因主機風險、硬體過保或作業系統升級而發起的計劃內營運操作,系統會將發起主備節點切換操作,僅包含高可用叢集。

叢集參數調整

說明

因已知的參數風險而發起的計劃內營運操作,系統會對叢集發起參數修改操作,如果下發的參數包含需要重啟的參數,則叢集會被重啟。

主機風險修複

說明

修複叢集所屬主機存在的故障風險。

SSL認證更新

說明

為保障叢集持續提供更出色的安全性和穩定性,當叢集的SSL認證即將到期時會發起該操作。

備份模式升級

說明

為保障叢集提供更快速的備份恢複能力,將叢集的備份模式從邏輯備份切換到物理庫表備份。

可用性區域遷移

說明

對部分老、舊地區和可用性區域的物理基礎設施進行升級和技術改造。

小版本升級

說明

為提升使用者體驗,雲資料庫會不定期地發布叢集的小版本,用於豐富雲產品功能或修複已知缺陷。

叢集閃斷

進入計劃切換時間後,將產生下述影響:

說明

待處理事件通常會產生叢集切換操作,該操作將在計劃切換時間之後的叢集可維護時間段執行。

  • 叢集或叢集中涉及切換的分區將發生串連閃斷及30秒以內的唯讀狀態(用於等待資料完全同步),請在業務低峰期執行,並確保應用程式具備重連機制。

  • 短暫影響該叢集在DMSDTS中的使用,操作完成後自動回復正常。

小版本號碼間的差異

不同的小版本號碼(核心版本號碼)更新的內容有所區別,您需要關注升級後的小版本和當前小版本的差異,具體請參見相關產品的小版本更新日誌(部分產品暫未開放小版本更新日誌):

代理小版本升級

說明

為提升使用者體驗,雲資料庫會不定期地發布代理節點(Proxy)的小版本,用於豐富代理服務的功能或修複已知缺陷。

叢集閃斷

進入計劃切換時間後,將產生下述影響:

說明

待處理事件通常會產生叢集切換操作,該操作將在計劃切換時間之後的叢集可維護時間段執行。

  • 叢集或叢集中涉及切換的分區將發生串連閃斷及30秒以內的唯讀狀態(用於等待資料完全同步),請在業務低峰期執行,並確保應用程式具備重連機制。

  • 短暫影響該叢集在DMSDTS中的使用,操作完成後自動回復正常。

小版本號碼間的差異

不同的小版本號碼更新的內容有所區別,您需要關注升級後的小版本和當前小版本的差異,具體請參見相關產品的小版本更新日誌(部分產品沒有代理節點或暫未開放代理節點更新日誌):

網路升級

說明

為提升叢集的網路效能和穩定性而升級網路硬體。

叢集閃斷

進入計劃切換時間後,將產生下述影響:

說明

待處理事件通常會產生叢集切換操作,該操作將在計劃切換時間之後的叢集可維護時間段執行。

  • 叢集或叢集中涉及切換的分區將發生串連閃斷及30秒以內的唯讀狀態(用於等待資料完全同步),請在業務低峰期執行,並確保應用程式具備重連機制。

  • 短暫影響該叢集在DMSDTS中的使用,操作完成後自動回復正常。

VIP直連影響

部分網路升級過程中可能涉及跨可用性區域遷移,叢集的虛擬IP(VIP)地址會發生改變,如果用戶端使用VIP串連雲資料庫將會引起串連中斷。

說明

為避免影響,您應當使用叢集提供的網域名稱形式的串連地址,同時關閉應用及其所屬伺服器的DNS緩衝。

儲存網關升級

說明

為提升叢集的儲存效能和穩定性而升級儲存網關。

I/O 抖動

可能出現短暫的I/O抖動或SQL時延增加,影響的時間不超過3秒。

開啟無感遷移能力

說明

為提升使用者體驗而開啟無感遷移。

參數修改

無影響。

說明

不涉及重啟遷移,對您當前業務無影響。

代理遷移

說明

代理所在宿主機升級或維護,提高代理節點穩定性。

代理節點遷移

代理節點遷移過程中,叢集地址和自訂地址會出現一次閃斷,閃斷時間不超過10秒。

常見問題

1 關於通知

為什麼會收到營運事件通知?

為提供持續、穩定且優質的雲資料庫服務,我們可能會對您的部分執行個體發起計劃營運事件進行軟硬體、配置升級和網路換代升級,事件類型涉及執行個體遷移、主備切換、版本升級、參數調整等。如果您開啟了執行個體的自動版本升級,您會定期收到小版本升級事件通知。

提前多長時間通知?為什麼沒有查到事件通知

根據事件緊急程度計劃內事件通常都會提前1~3天對客發送通知,通道是郵件,可在訊息中心查看具體通知接收人,可尋找下歷史一個月內的郵件,郵件標題關鍵字為“資料庫計劃內營運事件通知”。

為什麼收到了資料庫營運通知,在計劃內事件中並沒有看到事件?

  • 由於電訊廠商的通知狀態回調有一定延時,您收到通知後可以等1~3分鐘嘗試重新重新整理計劃內事件頁面,另外,請注意需要切換到執行個體所在的正確地區。

  • 郵件標題關鍵字為“阿里雲資料庫網路升級通知”等非資料庫計劃內事件營運通知,是由底層網路等基礎設施團隊發起的軟硬體升級,此類通常是執行個體或機房層級變更,並不是資料庫執行個體層級變更,無法針對某個執行個體修改執行時間或取消,因此不會有計劃內事件記錄,且具體的影響和說明請以當次的郵件或站內信為準。

2 關於開始時間和切換時間

為什麼過了事件開始時間執行個體上沒有看到有任務執行?

  • 過了開始時間,事件進入調度隊列等待執行,其中包括任務檢查、環境初始化以及營運動作編排等環節,此時可能還沒有下發執行個體層級任務,對執行個體可用性無任何影響,請耐心等待,您只需要關注切換時間。

  • 不同資料庫產品不同變更事件對應的營運編排可能不同,過了開始時間下發任務的時機也不同,比如高可用執行個體的執行個體遷移過程通常為備庫跨機重搭+主備切換+備庫跨機重搭,如果只是做主執行個體遷移其遷移過程為主備切換+備庫重搭,此時過了開始時間也不會立即下發任務,會持續等待到切換時間附近下發切換。

如何修改計劃切換時間?

您可以通過控制台或API修改,具體操作參見修改計劃事件(可選)和ModifyActiveOperationTasks。

為什麼無法修改計劃切換時間?

不支援修改計劃切換時間的情境如下:

  • 事件狀態為執行中。

  • 事件已經過了開始時間。

  • 目前時間晚於事件最晚操作時間。

  • 新的事件開始時間早於目前時間。

  • 事件自身不支援修改切換時間。

需要設定的切換時間不在可配置的時間範圍內,如何延期執行?

按設定事件切換時間不能晚於“最晚操作時間”,此時間是系統定義的安全操作視窗,如果晚於此時間可能會有故障風險,建議優先在此時間之前執行。如已知曉風險仍需要延期,可以提工單修改。

可以預估遷移的結束時間嗎?

當前僅展示遷移的開始時間和預估切換時間,由於受網路、任務隊列、資料量大小等多種因素影響,無法預估結束的時間。

“等待設定時間”狀態的事件如果在截止時間前未設定執行時間事件會自動執行嗎?

不會,超過截止時間未設定時間會自動取消,系統判定如需繼續變更會重新下發預約通知。

3 關於事件操作

如何取消事件?

通常不建議取消,您可以延遲計劃切換時間,例如選擇一個業務低峰期時間點來執行。如果您確實有取消事件的訴求,請參考操作步驟6. 可選:取消計劃事件。

手動取消事件後,還會重複推送嗎?

大部分事件是巡檢系統周期性巡檢下發的,如果手動取消當次事件,在一定靜默期(1~30天不等)後可能會重複下發,具體下發周期可根據具體原因在附錄2 詳細原因碼和取消風險查看(僅供參考)。

如何屏蔽計劃內事件?

重要

計劃內事件旨在提升服務品質和穩定性,強烈建議開啟,屏蔽後可能有穩定性風險。

如已知曉風險仍需屏蔽,可提工單,但為了保障服務穩定性,對於緊急風險修複事件無法屏蔽,典型情境為:宿主機故障、磁碟滿鎖定、SSL認證到期升級等。

4 其他問題

如何確定事件已完成?

執行個體對應的變更動作完成後會從計劃內事件中移除,可在已完成事件中查看,如需事件驅動地感知其狀態可以參考注意事項3訂閱CloudMonitor系統事件。

執行個體遷移事件會把執行個體遷移至其他可用性區域嗎?

不會,執行個體的可用性區域、帳號、網路、串連地址均不會發生變化。

相關API

API

描述

DescribePendingMaintenanceActions - 查看不同任務類型下待處理事件的數量

查看不同任務類型下待處理事件的數量。

ModifyPendingMaintenanceAction - 修改待處理事件的任務切換時間

修改待處理事件的任務切換時間。

DescribePendingMaintenanceAction - 查詢待處理事件的詳情

查詢待處理事件的詳情。