Data Integration(Data Integration)是阿里巴巴集團提供的資料同步平台。該平台具備可跨異構資料存放區系統、可靠、安全、低成本、可彈性擴充等特點,可為20多種資料來源提供不同網路環境下的離線(全量/增量)資料進出通道。
關於Data Integration的更多資訊,請參見Data Integration和支援的資料來源與讀寫外掛程式。
應用情境
- AnalyticDB PostgreSQL版可以通過Data Integration的同步任務將資料同步到其他的資料來源中(AnalyticDB PostgreSQL版資料匯出),並對資料進行相應的處理。
- 可以通過Data Integration的同步任務將處理好的其他資料來源資料同步到AnalyticDB PostgreSQL版(AnalyticDB PostgreSQL版資料匯入)。
無論是哪種應用情境,都可以通過DataWorks的Data Integration功能完成資料的同步過程,詳細的操作步驟(包括建立Data Integration任務、資料來源配置、作業配置、白名單配置等),請參考DataWorks文檔中的使用指南-->Data Integration一欄。文章中餘下部分會介紹AnalyticDB PostgreSQL版的資料匯入匯出操作詳細步驟。
準備工作
Data Integration任務準備
- 開通DataWorks服務
- 開通MaxCompute,自動產生一個預設的MaxCompute資料來源,並使用主帳號登入DataWorks
- 建立工作空間。您可在工作空間中協作完成工作流程,共同維護資料和任務等,因此使用DataWorks前需要先建立工作空間。
說明 如果您想通過子帳號建立Data Integration任務,可以賦予其相應的許可權。詳情請參見建立RAM使用者
AnalyticDB PostgreSQL版準備:
- 進行資料匯入操作前,請通過PostgreSQL用戶端建立好AnalyticDB PostgreSQL版中需要遷入資料的目標資料庫和表。
- 對於資料匯出,請登入AnalyticDB PostgreSQL版的管理主控台進行IP白名單設定,詳情請參見 添加白名單
資料匯入
源端的資料來源需要在DataWorks管理主控台進行添加,資料來源添加的詳細步驟請參考配置AnalyticDB for PostgreSQL資料來源
配置同步任務:
配置好資料來源後,就可以配置同步任務,完成資料來源資料到AnalyticDB PostgreSQL版的資料匯入。配置同步任務有兩種模式:嚮導模式和指令碼模式。
- 嚮導模式。通過嚮導模式配置Data Integration任務,需要依次完成以下幾步:
- 建立資料同步節點。
- 選擇資料來源。
- 選擇資料去向(這裡的資料去向一定是AnalyticDB PostgreSQL版)。
- 配置欄位的映射關係。
- 配置作業速率上限、髒資料檢查規則等資訊。
- 配置調度屬性。
說明 具體操作步驟請參考DataWorks通過嚮導模式配置離線同步任務 - 指令碼模式。通過指令碼模式配置Data Integration任務,需要依次完成以下幾步:
- 建立資料同步節點。
- 匯入模板。
- 配置同步任務的讀取端。
- 配置同步任務的寫入端(這裡寫入端一定是AnalyticDB PostgreSQL版)。
- 配置欄位的映射關係。
- 配置作業速率上限、髒資料檢查規則等資訊。
- 配置調度屬性。
說明 具體操作步驟請參考DataWorks通過指令碼模式配置離線同步任務
資料匯出
資料匯出的步驟和資料匯入的步驟一樣,區別是在資料匯出中,資料來源配置需要配置為AnalyticDB PostgreSQL版(參見配置AnalyticDB for PostgreSQL資料來源),而目的端可以配置為其他的資料來源類型。
參考資訊
更多Data Integration詳細資料請參考DataWorks文檔