全部產品
Search
文件中心

DataWorks:Data Integration側同步任務配置

更新時間:Jun 19, 2024

完成資料來源、網路、資源的準備配置後,您可以根據同步情境選擇同步解決方案,建立並執行同步任務,將源端資料同步至目標端。本文為您介紹同步任務的通用配置流程,不同的同步方案配置流程可能存在差異,對應方案配置詳情請以介面為準。

前提條件

  1. 已完成資料來源配置。您需要在Data Integration同步任務配置前,配置好您需要同步的源端和目標端資料庫,以便在同步任務配置過程中,可通過選擇資料來源名稱來控制同步任務的讀取和寫入資料庫。同步任務支援的資料來源及其配置詳情請參見支援的資料來源及同步方案

    說明

    資料來源相關能力介紹詳情請參見:資料來源概述

  2. 已完成資料來源環境準備。您可以基於您需要進行的同步配置,在同步任務執行前,授予資料來源配置的帳號在資料庫進行相應操作的許可權。詳情請參見:資料庫環境準備概述

背景資訊

Data Integration基於源端資料庫與目標端資料庫類型為您提供豐富的資料同步任務,同步類型包括:整庫離線同步(一次性全量同步、周期性全量同步、離線全增量同步處理、一次性增量同步處理、周期性增量同步處理)、一鍵即時同步(一次性全量同步,即時增量同步處理)。不同源端與目標端資料庫支援的同步方案不同,具體支援的方案詳情請參考產品介面。更多同步任務產品能力介紹,詳情請參見:Data Integration側同步任務能力說明

使用限制

  • 跨時區同步限制:

    同步任務暫不支援跨時區同步資料。如果同步任務中讀取和寫入的資料來源與使用的DataWorks資源群組不在同一個時區,將會導致時間類型欄位同步錯誤。

  • 同步庫個數限制:

    • 整庫離線同步僅支援同步資料來源指定的預設庫。

    • 一鍵即時同步支援同步對應RDS執行個體下資料來源配置帳號有許可權的所有資料庫。

進入同步任務

同步任務的建立入口在Data Integration模組,您需要前往Data Integration模組頁面進行建立。

  1. 進入Data Integration頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的Data Integration,在下拉框中選擇對應工作空間後單擊進入Data Integration

操作流程

  1. 步驟一:建立同步任務

  2. 步驟二:選擇同步方案

  3. 步驟三:網路與資源配置

  4. 步驟四:同步任務配置

  5. 步驟五:啟動同步任務

步驟一:建立同步任務

您可以通過以下兩種方式建立同步任務:

  • 方式一:在同步任務頁面,選擇來源去向,單擊開始建立

  • 方式二:在同步任務頁面,如果工作清單為空白,單擊請建立

步驟二:選擇同步方案

您可以根據業務需要選擇要同步的來源和去向資料來源類型。選擇後,Data Integration基於源端資料庫與目標端資料庫類型為您展示目前支援的同步類型,您可以根據業務需要進行選擇。

說明

支援的資料來源及同步方案請參見:支援的資料來源及同步方案

步驟三:網路與資源配置

在此步驟中,您需要選擇要同步的來源與去向資料來源,以及用於執行同步任務的資源群組。並測試資源群組與資料來源的網路連通。

說明

若還未建立資料來源,請單擊介面的建立資料來源按鈕,建立資料來源。詳情請參見:資料來源概述

步驟四:同步任務配置

根據具體任務類型按介面說明進行同步相關配置。

步驟五:啟動同步任務

您可以執行任務並查看任務詳細執行過程。

  1. 進入Data Integration > 同步任務介面,找到已建立的同步方案。

  2. 單擊操作列的啟動/提交執行按鈕,啟動同步的運行。

  3. 單擊操作列的執行詳情,查看任務的詳細執行過程。

附錄:進階配置

設定同步來源與規則

選擇源端資料來源中需要同步的庫和表後,同步任務預設將源端資料庫、資料表寫入目標端同名schema或同名表中,如果目標端不存在該schema或表,將會自動建立。同時,您可以通過設定表(庫)名的映射規則定義最終寫入目標端的schema或表名稱。實現將多張表資料寫入到同一個表中,或統一將源端某固定首碼的庫名或表名在寫入目標庫或表時更新為其他首碼。

  • 源表名和目標表名轉換規則:源端表名支援通過Regex轉換為目標端最終寫入的表名。

    • 樣本1:將源端doc_首碼的表資料,寫入首碼為pre_的目標表中。改名

    • 樣本2:將多張表資料寫入到一張目標表。

      將源端名稱為 "table_01","table_02","table_03" 的表同步至一張名為 "my_table" 的表中。配置正則表名轉換規則為::table.*,目標:my_table。樣本

  • 目標表名規則:支援您使用內建的變數組合產生目標表名,同時,對轉換後的目標表名支援添加首碼和尾碼。可使用的內建變數有:

    • ${db_table_name_src_transed}:“源表名和目標表名轉換規則”中的轉換完成之後的表名。

    • ${db_name_src_transed}:“源庫名和目標Schema名轉換規則”中的轉換完成之後的目標Schema名。

    • ${ds_name_src}:來源資料源名。

    樣本:對上一步源表名和目標表名轉換規則轉換後的表名做進一步字串拼接處理,使用${db_table_name_src_transed}代表上一步的處理結果“my_table”,再為該內建變數增加首碼和尾碼,例如,pre_${db_table_name_src_transed}_post,最終就映射到了名為“pre_my_table_post”的目標表。

  • 源庫名和目標Schema名轉換規則:源端schema名支援通過Regex轉換為目標端最終寫入的schema名。

    樣本:將源端doc_首碼的庫名替換為pre_首碼。schema

設定目標表

您可以定義寫入目標表的相關屬性,例如,寫入模式、是否寫入分區表以及分區的欄位名稱、選擇寫入目標端已有表還是建立表、以及是否需要編輯欄位並為目標欄位賦值等。

說明
  • 此步驟中,單擊重新整理源端與目標端表映射按鈕後,將會根據配置的表規則來映射源端表與目標端表的寫入關係。

  • 此處的配置項根據目標端資料來源類型的不同而存在一定的差異,具體以各方案實際配置介面為準。詳情請參見:支援的資料來源及同步方案

設定寫入規則

此步驟根據選擇的同步方案類型不同,需要進行的配置存在一定差異:

  • DDL或DML訊息處理規則(一鍵即時同步任務):

    來來源資料源會包含許多DDL或DML操作,為保障資料符合預期,您可以根據寫入的目標端資料來源類型配置DDL或DML訊息處理策略。DDL訊息處理策略詳情請參見:DDL訊息處理規則DML訊息處理策略

  • 同步規則設定(整庫離線同步):

    當使用整庫離線同步時,需要定義同步策略。例如,增量同步處理的過濾條件設定、同步任務的調度周期設定等。

    • 增量同步處理:您可通過where語句對待同步的資料表進行過濾,且只需在增量條件框中填寫where子句,無需寫where關鍵字。同時,在寫where子句時,您可以使用系統內建變數,例如使用${bdp.system.bizdate}指代業務日期、使用${bdp.system.cyctime}指代定時時間等。

      說明

      您可以使用調度參數來指定同步源表及目標表的資料範圍,調度參數使用說明請參見:Data Integration使用調度參數的相關說明

    • 周期設定:由於需要進行周期性調度,所以需要定義周期性調度任務時的相關屬性,包括調度周期生效日期暫停調度等。當前方案的調度配置與DataWorks中節點的調度配置一致,參數詳情可參見時間屬性配置說明

設定任務運行資源

在此步驟中,您可以配置任務名稱及任務執行所使用的資源群組,同時,Data Integration提供資料庫最大串連數、並發數等配置的預設值,如果您需要對任務做精細化配置,您可通過進階配置進行修改。

  • 如果您選擇一鍵即時同步方案,該方案將分別建立用於同步全量資料的離線同步任務,和用於同步增量資料的即時同步任務。您需要在運行資源設定介面分別配置離線同步任務的及即時同步任務的相關屬性。包括即時同步子任務和離線同步子任務的任務名稱、即時增量同步處理及離線全量同步使用的獨享Data Integration資源群組、離線同步任務所使用的調度資源群組。

  • 如果您選擇整庫離線同步方案,您需要配置離線任務名稱及使用的調度資源群組與Data Integration任務執行資源組。

說明
  • DataWorks的離線同步任務通過調度資源群組將其下發到Data Integration任務執行資源組上執行,所以離線同步任務除了涉及Data Integration任務執行資源組外,還會佔用調度資源群組資源。如果使用了獨享調度資源群組,將會產生調度執行個體費用。您可通過任務下發機制對該機制進行瞭解。

  • 離線和即時同步任務推薦使用不同的資源群組,以便任務分開執行。如果選擇同一個資源群組,任務混跑會帶來資源搶佔、運行態互相影響等問題。例如,CPU、記憶體、網路等互相影響,可能會導致離線任務變慢或即時任務延遲等問題,甚至在資源不足的極端情況下,可能會出現任務被OOM KILLER殺掉等問題。

後續步驟

完成任務配置後,您可以對已建立的任務進行管理、執行加減表操作,或對任務配置監控警示,並查看任務啟動並執行關鍵計量等。詳情請參見:全增量同步處理任務營運