DataWorks為您提供多種資料來源之間進行不同資料同步情境的全增量同步處理任務,包括即時資料同步、離線全量同步、離線增量同步處理等同步情境,助力企業資料更高效、更便捷的一鍵上雲。
背景資訊
實際業務情境下,資料同步通常不能通過一個或多個簡單離線同步或者即時同步任務完成,而是由多個離線同步、即時同步和資料處理等工作群組合完成,這就會導致資料同步情境下的配置複雜度非常高。
為瞭解決上述問題,DataWorks提出了面向業務情境的同步任務配置化方案,支援不同資料來源的一鍵同步功能,例如,“一鍵即時同步至Elasticsearch”、“一鍵即時同步至Hologres”和“一鍵即時同步至MaxCompute”功能等,通過此類功能,您只需要進行簡單的配置,就可以完成一個複雜業務情境。
以業務資料庫資料同步到MaxCompute資料倉儲為例,當有大量的資料存放區在資料庫系統裡,需要將資料庫中的全量及增量資料同步到MaxCompute進行數倉分析時,Data Integration傳統方式是通過全量同步或者依賴資料庫表中的modify_time等欄位進行增量同步處理。但實際生產情境下,資料庫表中不一定存在modify_time等欄位,因此不能使用傳統的基於JDBC抽取的方式進行增量同步處理。而“一鍵即時同步至MaxCompute”功能實現了資料庫全增量即時同步到MaxCompute以及在MaxCompute上進行自動的全增量合并,可以使整個同步情境化繁為簡。
全增量同步處理任務具有如下優勢:
全量資料初始化。
增量資料即時寫入。
增量資料和全量資料定時自動合并寫入新的全量表分區。
功能概述
全增量同步處理任務支援的能力如下圖所示:
功能 | 描述 |
複雜網路環境下的資料同步 | 支援雲資料庫、本地IDC、ECS自建資料庫或非阿里雲資料庫等環境下的資料同步。您可以根據資料庫所在網路環境,選擇合適的全增量同步處理任務來實現資料來源與資源群組的網路連通。在配置同步任務前,您需要確保Data Integration資源群組與您將同步的資料來源端與目標端網路環境已經連通,對應資料庫環境與網路連通配置詳情請參見:配置資源群組與網路連通。 |
資料同步情境 | 全增量同步處理任務支援單表資料同步至目標端單表、分庫分表資料同步至目標端單表、整庫(多表)資料同步至目標端多表。 DataWorks為您提供多種類型的全增量同步處理任務。包括整庫離線同步(一次性全量同步、周期性全量同步、離線全增量同步處理、一次性增量同步處理、周期性增量同步處理)、一鍵即時同步(一次性全量同步,即時增量同步處理)。詳情請參見:支援的資料來源及同步方案。 |
全增量同步處理任務配置 | 全增量同步處理任務配置時支援的能力如下,詳細配置請參見:Data Integration側同步任務配置。任務配置相關能力說明請參見:Data Integration側同步任務配置相關能力。 |
全增量同步處理任務營運 |
|
Data Integration側同步任務配置相關能力
支援的能力 | 說明 |
重新整理表映射 | 單擊重新整理源端與目標端表映射按鈕後,下方表格會顯示重新整理後的結果。如上圖所示, |
查看或修改單表表結構 | 單擊表名列的表名,可以開啟可視化建表的配置視窗,支援您根據業務需要,對錶進行編輯。 上圖樣本對自動建表 重要 在自動建表情境下:
上圖樣本對已有表 重要 在使用已有表情境下:
|
批量修改目標表結構 | 選中多行記錄後,單擊批量修改目標表結構按鈕,可以對選中表進行大量操作。調整完畢後,單擊應用並重新整理映射按鈕進行儲存。 重要
您還可以單擊 |
自訂目標schema名或表名 | 全增量同步處理任務預設將源端資料庫、資料表寫入目標端同名schema或同名表中,如果目標端不存在該schema或表,將會自動建立。同時,支援您定義最終寫入目標端的schema或表名稱。詳情請參見:設定表(庫)名的映射規則。 說明
|
為目標欄位賦值 | 全增量同步處理任務預設同名映射,將源端欄位寫入目標端同名欄位中。同時,支援您為目標表新增欄位並為欄位賦值常量或變數。單擊目標表欄位賦值列的編輯,彈窗會自動顯示出調整後的表結構。
說明 支援的變數解釋:
|
定義DDL/DML訊息處理策略 | 針對源端DDL類型的訊息,您可以在任務配置時,根據業務需要,對不同的DDL訊息設定同步至目標端的處理策略。目標端支援的DML與DDL操作詳情請參見:支援的DML及DDL操作。 說明
|