全部產品
Search
文件中心

DataWorks:整庫離線同步至MaxCompute

更新時間:Jun 19, 2024

整庫離線同步方案包括周期性全量同步、周期性增量同步處理、一次性全量同步、一次性增量同步處理、一次性全量周期性增量同步處理。本文以一次性全量周期性增量同步處理至MaxCompute為例,為您講解如何將整庫資料離線同步至MaxCompute。

前提條件

  1. 已完成資料來源配置。您需要在Data Integration同步任務配置前,配置好您需要同步的源端和目標端資料庫,以便在同步任務配置過程中,可通過選擇資料來源名稱來控制同步任務的讀取和寫入資料庫。同步任務支援的資料來源及其配置詳情請參見支援的資料來源及同步方案

    說明

    資料來源相關能力介紹詳情請參見:資料來源概述

  2. 已完成資料來源環境準備。您可以基於您需要進行的同步配置,在同步任務執行前,授予資料來源配置的帳號在資料庫進行相應操作的許可權。詳情請參見:資料庫環境準備概述

背景資訊

各類方案介紹及寫入表分區說明請參見:Data Integration側同步任務能力說明

操作流程

  1. 步驟一:選擇同步方案

  2. 步驟二:配置網路連通

  3. 步驟三:設定同步來源與規則

  4. 步驟四:設定目標表

  5. 步驟五:同步規則設定

  6. 步驟六:運行資源設定

  7. 步驟七:執行同步任務

步驟一:選擇同步方案

建立同步解決方案任務,根據需求選擇需要同步的源端資料來源和目標端資料來源,並選擇整庫離線同步至MaxCompute方案。

步驟二:配置網路連通

源端選擇已建立的源端資料來源與目標端資料來源,以及用於執行同步任務的資源群組。並測試資源群組與資料來源的網路連通。詳情請參見:配置同步網路連結

步驟三:設定同步來源與規則

  1. 基本配置地區,配置同步解決方案的名稱、任務存放位置等資訊。

  2. 資料來源地區,確認需要同步的源端資料來源相關資訊。

  3. 選擇同步的源表地區,選中需要同步的源表,單擊表徵圖表徵圖,將其移動至已選源表

    該地區會為您展示所選資料來源下所有的表,您可以選擇整庫全表或部分表進行同步。

  4. 設定表名的映射規則地區,單擊添加規則,選擇相應的規則進行添加。

    同步時預設將源端資料表寫入MaxCompute同名表中,同時,您可以通過添加映射規則定義最終寫入目的端的表名稱。支援通過Regex轉換寫入的表名,還支援指定內建變數拼接目標表名。您可以通過該功能實現將多張表資料寫入到同一個表中,或統一將源端某固定首碼的表名在寫入目標表時更新為其他首碼。配置邏輯請參見:Data Integration側同步任務配置

步驟四:設定目標表

  1. 時間自動分區設定。

    目前僅支援將源端資料寫入MaxCompute分區表,您可以單擊編輯表徵圖定義目標表分區欄位名稱。

  2. 重新整理源表與目標表映射。

    單擊重新整理源表和MaxCompute表映射將根據您在步驟三配置的目標表名映射規則來產生目標表,若步驟三未配置映射規則,將預設寫入與源表同名的目標表,若目標端不存在該同名表,將預設建立。同時,您可以修改表建立方式、為目標表在原有表欄位基礎上增加附加欄位。

    說明

    目標表名將根據您在設定表名的映射規則階段配置的表名轉換規則自動轉換。

    功能

    描述

    為非主鍵表選擇主鍵

    由於當前方案不支援無主鍵表同步,所以您需要單擊同步主鍵列的編輯按鈕,為無主鍵表設定自選主鍵,即選擇表中一個或部分欄位作為主鍵,寫入目標端時將會使用該主鍵進行去重。

    選擇表建立方式

    支援自動建表使用已有表

    • 表建立方式選擇使用已有表時,MaxComputeBase 表名列顯示已有MaxCompute表名稱。您也可以在下拉式清單中選擇需要使用的表名稱。

    • 表建立方式選擇自動建表時,顯示自動建立的表名稱。您可以單擊表名稱,查看和修改建表語句。

    編輯目標表結構

    目前自動建表產生的MaxCompute表生命週期預設只有30天,並且可能存在欄位類型映射,即若目標端資料庫中沒有與源端一致的資料類型時,同步任務在自動建立目標表時,將自動為源端欄位匹配目標端可寫入的欄位類型。若您需要修改MaxCompute表生命週期或修改目標表欄位類型映射,您可單擊MaxCompute 表名列的目標表名進行修改。

步驟五:同步規則設定

  1. 配置全量同步的資料規則。

    您可以根據實際情況選擇是否寫入前清空對應的原有表,選擇是後,後續進行資料同步時,每次向MaxCompute寫入資料前,均會刪除MaxCompute表內原有的資料,建議您謹慎選擇。

  2. 配置增量同步處理的資料規則。

    您可通過where語句對待同步的資料表進行過濾,且只需在增量條件框中填寫where子句,無需寫where關鍵字。同時,在寫where子句時,您可以使用系統內建變數,例如使用${bdp.system.bizdate}指代業務日期、使用${bdp.system.cyctime}指代定時時間等。

    說明

    您可以使用調度參數來指定同步源表及目標表的資料範圍,調度參數使用說明請參見:Data Integration使用調度參數的相關說明

  3. 配置資料同步的調度周期。

    根據任務運行需求設定資料同步任務的調度周期,包括調度周期生效日期暫停調度等。調度屬性的配置與一般節點任務的調度屬性配置類似,參數詳情可參見時間屬性配置說明

步驟六:運行資源設定

該同步方案將分別建立全量離線同步任務和增量離線同步任務,您可以在此步驟配置任務名稱及任務執行所使用的調度資源群組與Data Integration任務執行資源組,同時,Data Integration提供資料庫最大串連數、並發數等配置的預設值,如果您需要對任務做精細化配置,您可通過進階配置進行修改。

說明

DataWorks的離線同步任務通過調度資源群組將其下發到Data Integration任務執行資源組上執行,所以離線同步任務除了涉及Data Integration任務執行資源組外,還會佔用調度資源群組資源。如果使用了獨享調度資源群組,將會產生調度執行個體費用。您可通過任務下發機制對該機制進行瞭解。

步驟七:執行同步任務

  1. 進入Data Integration > 同步任務介面,找到已建立的同步方案。

  2. 單擊操作列的啟動/提交執行按鈕,啟動同步的運行。

  3. 單擊操作列的執行詳情,查看任務的詳細執行過程。

後續步驟

完成任務配置後,您可以對已建立的任務進行管理、執行加減表操作,或對任務配置監控警示,並查看任務啟動並執行關鍵計量等。詳情請參見:全增量同步處理任務營運