全部產品
Search
文件中心

DataWorks:全增量同步處理任務營運

更新時間:Jun 19, 2024

完成任務配置後,您可以對已建立的任務進行管理,同時,您還可以查看任務啟動並執行指標詳情。本文為您介紹全增量同步處理任務的常見營運操作。

背景資訊

本文僅說明全增量同步處理任務常見的營運操作,全增量同步處理任務產生的即時同步子任務營運操作請參見:即時同步任務營運;離線子任務營運操作參考:離線同步任務營運

管理全增量同步處理任務

任務配置完成後,您可以在Data Integration > 同步任務頁面查看已建立的同步工作清單,您可以根據不同條件式篩選同步任務。並對相應的同步任務執行如下操作:

操作

說明

啟動

單擊對應同步任務操作列的提交執行,啟動同步任務的運行。

編輯

實際生產環境業務會隨著時間推移不斷演化,源端的業務表可能會持續新增,全增量同步處理任務支援增加或刪除表。您可以單擊操作更多 > 修改配置,進入任務配置介面進行增加或刪除表,配置完成後,您可以單擊提交執行,提交執行任務時,會和上一次運行成功的任務對應的表做對比,當發現新增表時則會執行新增表的添加流程。詳情請參見:增加或刪除已運行任務的同步表

如果同步方案類型為一鍵即時同步,將先對新增表進行全量初始化,執行完成後會將新增表加入即時同步任務並啟動即時同步。

說明
  • 重設即時同步任務位點並啟動運行時,會存在一個新增表追加變更資料的過程,即任務位點時間重設到新增表全量資料初始化時的時間。例如,您的同步任務8點開始運行,到9點時運行未結束。9點時新增了一張表,則全量資料初始化在9點開始執行,此過程耗時1小時,即全量資料初始化在10點完成。此時,已經正在啟動並執行即時同步任務會先停止,然後重設任務位點到9點,進行追加增量資料,9點到10點之間所有變更表的增量資料會被重新同步至Hologres目標表,一鍵新增表只保證資料的最終一致性。

  • 若您需要對所有表執行初始化操作,請使用強制重跑功能。

強制重跑

在某些特殊情況下,例如發現源端資料被汙染、資料鏈路出現問題等,您可以單擊操作更多 > 強制重跑強制對源端所有表進行全增量初始化操作,將源端資料重新遷移到目標表中,以快速恢複資料。

說明
  • 僅Hologres和MaxCompute支援強制重跑同步任務。

  • 強制重跑暫不支援分庫分表全增量同步處理任務。

其中一鍵即時同步至MaxCompute任務需要重跑流程恢複資料的常見情境如下:

  • 即時任務失敗太久導致Binlog被清理,無法補回增量資料。

  • 由於各種原因導致目標表缺失了新增列。

  • 由於各種原因導致目標表資料出現了缺失或者不正確的問題。

重要
  • 強制重跑會同步源表的列到目標表,如果目標表缺失了源表的列則會進行加列補齊。

  • 執行強制重跑前,需要確認是否可能和正在運行或者即將啟動並執行Merge任務執行個體產生衝突(同時運行時,如果業務日期相同,分區資料或者表資料可能會相互覆蓋)。

    您可以在DataWorks營運中心查看周期執行個體頁面查看該同步任務Merge執行個體的執行情況,如果Merge任務和強制重跑操作產生衝突,您可以:

    • 暫停強制重跑操作,等待Merge任務執行完成後,再執行強制重跑操作。

    • 凍結即將啟動並執行Merge執行個體,等待強制重跑成功後,恢複Merge執行個體。

  • 強制重跑執行完成後,如果次日資料未產出或者Merge任務沒有恢複自動運行,您需要手動確認並恢複該Merge執行個體的運行:

全量補資料

該功能適用於MaxCompute目標表由於各種原因出現了資料缺失等正確性問題,需要重新同步全量資料補回全量資料的情境。

說明
  • 僅一鍵即時同步至MaxCompute任務支援全量補資料。

  • 全量補資料暫不支援分庫分表同步任務。

單擊對應同步任務操作列的全量補資料,配置全量補資料參數:

  1. 選擇補資料的業務日期。

    對於分區表,全量資料會同步到業務日期對應的日期分區中。

  2. 選擇補資料端表。

    在左側選擇框,選擇要執行全量同步的表,單擊表徵圖表徵圖,將其添加至右側。

  3. 單擊確定按鈕,開始全量補資料操作。

重要
  • 當前業務日期僅支援選擇單日,如果要補多日的全量資料,需要執行多次全量補資料。

  • 一鍵全量同步會同步源表和目標表的共同列,以及全增量同步處理任務中定義的附加列。

  • 執行全量補資料前,需要確認補資料的業務日期,是否可能和正在運行或者即將啟動並執行Merge任務執行個體產生衝突(同時運行時,如果業務日期相同,分區資料或者表資料可能會相互覆蓋)。

    您可以在DataWorks營運中心查看周期執行個體頁面查看該同步任務Merge執行個體的執行情況,如果Merge任務和全量補資料操作產生衝突,您可以:

    • 暫停全量補資料操作,等待Merge任務執行完成後,再執行全量補資料操作。

    • 凍結即將啟動並執行Merge執行個體,等待全量補資料完成後,恢複Merge執行個體。

停止

運行中的任務,可以單擊操作列的停止,終止同步任務的運行。

查看任務運行概況

您可以進入Data Integration > 任務營運頁面查看所選時間周期中目標全增量同步處理任務的運行狀態概況。主要內容如下:

  • 總運行狀態分布地區展示當前所選時間周期,目標任務的個數及運行結果的狀態分布,統計的是任務運行成功及失敗狀況。您可以單擊餅圖中的某個色塊,進入相應狀態的工作清單,在工作清單頁面查看相應任務的執行詳情。任務的執行詳情內容介紹請參見查看任務執行詳情

  • 資源群組水位地區展示當前登入阿里雲的帳號所使用的資源群組規格及使用方式。您可以單擊資源群組名稱,進入目標資源群組詳情頁面,查看資源群組的基本資料及使用詳情。資源群組的詳細內容介紹請參見查看獨享資源群組的使用詳情

  • 離線同步子任務地區展示當前所選時間周期,目標全增量同步處理任務包含的離線同步任務個數、同步速率、運行結果的狀態分布,以及同步資料情況。

    • 運行結果統計的是任務運行成功及異常狀況。

    • 同步資料說明如下:

      • 同步任務數:顯示當前同步任務中運行成功的任務個數。

      • 同步資料量:顯示當前同步任務中的已同步資料量,包含已運行成功任務同步的資料量及運行中任務已同步的資料量。

      • 同步記錄數:顯示當前同步任務中的已同步資料的條數記錄。

    說明

    離線同步子任務的統計情況每小時更新一次。

  • 即時同步子任務地區展示當前所選周期,目標全增量同步處理任務包含的即時同步任務個數、同步速率、運行結果的狀態分布,以及運行中任務延遲排行TOP10的延遲情況。您可以單擊任務名稱,進入即時任務營運頁面查看任務詳情。

查看任務執行詳情

您可以單擊Data Integration > 同步任務,進入工作清單頁面。

在工作清單頁面,為您展示全增量同步處理任務的任務類型任務名稱及可執行檔相關操作等資訊,您可以在目標同步任務的操作列單擊執行詳情,查看任務執行的詳細資料。主要內容如下:

  • 執行資料地區展示當前查看任務的同步前置環境準備全量離線同步即時同步等子任務的執行狀態。您可以根據執行狀態,判斷各個子任務是否正常運行,便於快速定位全增量同步處理任務執行的阻塞點。狀態如下:

    • 顯示運行成功表徵圖,則表示任務執行成功。

    • 顯示異常表徵圖,則表示任務執行異常。

    • 顯示等待運行表徵圖,則表示任務等待運行。

  • 全量離線同步即時同步地區展示當前查看的全增量同步處理任務中,全量離線同步即時同步子任務同步的來來源資料源、當前同步速率、同步資料、同步資料的延遲情況及所使用資源群組的詳細資料。

  • 執行步驟地區展示當前查看的全增量同步處理任務,從建立任務到啟動執行離線任務、即時任務的所有流程步驟。您可以在該地區查看所有步驟的執行時間及執行狀態。