全部產品
Search
文件中心

DataWorks:情境:配置增量資料離線同步任務

更新時間:Jun 19, 2024

離線同步任務支援您通過配置類似的資料過濾功能來決定同步全量資料還是增量資料,配置過濾條件時,將只同步滿足過濾條件的資料。同時,過濾條件可以結合調度參數使用,實現過濾條件隨任務調度時間的動態變化,進而實現增量資料的同步。該內容將向您介紹如何配置增量資料同步任務。

使用說明

  • 部分資料來源暫無增量同步處理方案,例如HBase、OTSStream資料來源等。具體資料來源是否支援增量同步處理可以看具體的Reader外掛程式文檔。

  • 每個外掛程式實現增量同步處理的所配置的參數可能不同,具體參數配置可以參考對應的Reader外掛程式文檔,詳情可參考:支援的資料來源與讀寫外掛程式。例如:

    資料庫類型

    增量同步處理需配置的參數

    支援的文法

    MySQL Reader

    where

    說明

    嚮導模式配置時,需要配置的介面參數名為:資料過濾。

    資料庫文法

    說明

    可與調度參數結合實現每日讀取指定時間區間的資料。

    MongoDB Reader

    query

    說明

    嚮導模式配置時,需要配置的介面參數名為:檢索查詢條件。

    基本與資料庫一致

    說明

    可與調度參數結合實現每日讀取指定時間區間的資料。

    OSS Reader

    Object

    指定路徑

    說明

    與調度參數結合實現每日讀取指定檔案資料。

    ...

    ...

    ...

配置增量同步處理

Data Integration離線同步任務中,可以使用調度參數來指定同步源表及目標表的資料路徑以及資料範圍,調度參數的配置方式與其他類型任務一致,沒有特殊限制。

在同步任務運行時,任務中配置的預留位置參數都會被替換為調度參數運算式所表達的實際值,然後再執行資料同步。

以同步MySQL資料為例:

  • 當不配置資料過濾時,預設同步全量資料至目標表中。

  • 當配置資料過濾時,將只同步滿足過濾條件的資料至目標表中。

目標MaxCompute表分區名稱以調度參數的方式指定,$bizdate表示業務日期,定時任務執行時,任務配置的分區運算式會替換為調度參數所表達的業務日期。調度參數運算式的詳細配置說明請參考文檔:配置並使用調度參數增量同步處理樣本配置增量資料同步時:

  • 時間類型增量欄位同步:可以通過調度參數來實現時間類型資料的動態替換,調度參數將在任務調度時自動根據業務時間替換為具體的值。關於調度參數的使用,詳情請參見:調度參數支援的格式

  • 非時間類型增量欄位同步:可以通過賦值節點將欄位處理為目標資料類型後,再傳入Data Integration進行資料同步。關於賦值節點的使用詳情請參見:賦值節點

情境樣本