調度參數可以同於Data Integration任務配置的各個階段。本文為您介紹調度參數的典型應用情境。
背景資訊
DataWorksData Integration結合調度參數使用,可實現以下情境:
情境 | 說明 | 相關文檔 |
增量資料同步 | 部分Reader外掛程式可通過調度參數實現每次調度只同步指定時間範圍內的資料至目標端。同時,您可以結合補資料功能,實現將對應時間內的資料同步至目標端對應分區的功能。例如MySQL、Loghub、Kafka等。 | 情境一:同步增量資料、情境四:同步歷史資料 |
動態表名或檔案路徑 | 表名或檔案名稱使用調度參數,可實現每次同步不同表的目的。例如OSS、FTP,MySQL等外掛程式。部分外掛程式可能需要轉指令碼配置。 | 情境二:同步動態表名或檔案名稱中的資料 |
在同步時為目標表某欄位賦值常量或時間變數 | 欄位對應時您可以手動編輯欄位並結合調度參數使用,為目標表某欄位賦值同步業務日期的常量值。具體外掛程式是否支援該操作請以各外掛程式的支援情況為準。 | 情境三:定義目標欄位 |
注意事項
在DataStudio介面單擊運行或進階運行時,僅支援手動為離線同步任務配置的變數賦值常量,由於Data Integration無法直接使用開發環境煙霧測試 (Smoke Test)功能,建議您通過以下方式驗證調度參數在調度情境下的替換情況。
- SQL類型節點通過煙霧測試 (Smoke Test)驗證參數符合預期後,再將參數移入Data Integration任務使用。SQL類型節點調度參數測試,詳情請參見:配置並使用調度參數。
- 將離線同步節點提交至開發環境營運中心執行。
情境一:同步增量資料
重要 Data Integration任務配置過程中,支援在資料過濾相關參數中使用調度參數,實現增量同步處理,同時您需要配置滿足資料庫的文法。增量同步處理詳情請參見:情境:配置增量資料離線同步任務。
- 樣本1:將LogHub每十分鐘內的增量資料同步至MaxCompute T-1分區。
平台將根據定時時間,每十分鐘產生一個調度執行個體,目標MaxCompute表分區名稱也以調度參數的方式指定,$bizdate表示業務日期,定時任務執行時,任務配置的分區運算式會替換為調度參數所表達的業務日期。調度參數運算式的詳細配置說明請參考文檔:配置並使用調度參數。
說明 開始時間與結束時間為左閉右開區間。 - 樣本2:每天0點將LogHub昨天的資料寫入MaxCompute T-1分區。說明 開始時間與結束時間為左閉右開區間。
情境二:同步動態表名或檔案名稱中的資料
調度參數可以為Data Integration任務配置中定義的變數進行賦值。
- 樣本1:動態檔案名稱。
每日將OSS指定目錄下檔案名稱為時間日期結尾的檔案同步至MaxCompute對應分區中。
說明 如果要實現同步動態表名或檔案名稱中的資料,部分外掛程式需要轉指令碼模式進行配置。同時,在使用變數的情況下,一般不支援資料預覽功能。 - 樣本2:動態表名。MySQL將源端具有時間格式規律的表通過調度參數實現動態表名配置,進而實現每天將MySQL對應業務表寫入MaxCompute表對應分區。如下圖所示:
情境三:定義目標欄位
Data Integration任務配置過程中,支援您為目標表某欄位賦值同步業務日期的常量值。樣本:下圖框中的欄位值將通過調度參數每日替換情況來動態賦值。
情境四:同步歷史資料
基於調度參數可根據業務時間將參數自動替換為對應的值這一特性,當您建立任務當天需要將歷史資料進行補齊時,您可使用補資料功能,補資料支援補歷史一段時間的資料或者未來一段時間的資料,調度參數將在任務調度時根據補資料選擇的業務時間自動替換為對應的值。補資料操作請參見:執行補資料並查看補資料執行個體。
樣本:將MySQL增量資料寫入MaxCompute對應的時間分區中。