全部產品
Search
文件中心

AnalyticDB:DataWorksData Integration

更新時間:Feb 05, 2024

Data Integration(Data Integration)是阿里巴巴集團提供的資料同步平台。該平台具備可跨異構資料存放區系統、可靠、安全、低成本、可彈性擴充等特點,可為20多種資料來源提供不同網路環境下的離線(全量/增量)資料進出通道。

關於Data Integration的更多資訊,請參見Data Integration支援的資料來源與讀寫外掛程式

應用情境

  • AnalyticDB PostgreSQL版可以通過Data Integration的同步任務將資料同步到其他的資料來源中(AnalyticDB PostgreSQL版資料匯出),並對資料進行相應的處理。
  • 可以通過Data Integration的同步任務將處理好的其他資料來源資料同步到AnalyticDB PostgreSQL版AnalyticDB PostgreSQL版資料匯入)。

無論是哪種應用情境,都可以通過DataWorks的Data Integration功能完成資料的同步過程,詳細的操作步驟(包括建立Data Integration任務、資料來源配置、作業配置、白名單配置等),請參考DataWorks文檔中的使用指南-->Data Integration一欄。文章中餘下部分會介紹AnalyticDB PostgreSQL版的資料匯入匯出操作詳細步驟。

準備工作

Data Integration任務準備

  1. 開通DataWorks服務
  2. 開通MaxCompute,自動產生一個預設的MaxCompute資料來源,並使用主帳號登入DataWorks
  3. 建立工作空間。您可在工作空間中協作完成工作流程,共同維護資料和任務等,因此使用DataWorks前需要先建立工作空間。
說明 如果您想通過子帳號建立Data Integration任務,可以賦予其相應的許可權。詳情請參見建立RAM使用者

AnalyticDB PostgreSQL版準備:

  1. 進行資料匯入操作前,請通過PostgreSQL用戶端建立好AnalyticDB PostgreSQL版中需要遷入資料的目標資料庫和表。
  2. 對於資料匯出,請登入AnalyticDB PostgreSQL版的管理主控台進行IP白名單設定,詳情請參見 添加白名單

資料匯入

源端的資料來源需要在DataWorks管理主控台進行添加,資料來源添加的詳細步驟請參考配置AnalyticDB for PostgreSQL資料來源

配置同步任務:

配置好資料來源後,就可以配置同步任務,完成資料來源資料到AnalyticDB PostgreSQL版的資料匯入。配置同步任務有兩種模式:嚮導模式指令碼模式

  • 嚮導模式。通過嚮導模式配置Data Integration任務,需要依次完成以下幾步:
    1. 建立資料同步節點。
    2. 選擇資料來源。
    3. 選擇資料去向(這裡的資料去向一定是AnalyticDB PostgreSQL版)。
    4. 配置欄位的映射關係。
    5. 配置作業速率上限、髒資料檢查規則等資訊。
    6. 配置調度屬性。
    說明 具體操作步驟請參考DataWorks通過嚮導模式配置離線同步任務
  • 指令碼模式。通過指令碼模式配置Data Integration任務,需要依次完成以下幾步:
    1. 建立資料同步節點。
    2. 匯入模板。
    3. 配置同步任務的讀取端。
    4. 配置同步任務的寫入端(這裡寫入端一定是AnalyticDB PostgreSQL版)。
    5. 配置欄位的映射關係。
    6. 配置作業速率上限、髒資料檢查規則等資訊。
    7. 配置調度屬性。
    說明 具體操作步驟請參考DataWorks通過指令碼模式配置離線同步任務

資料匯出

資料匯出的步驟和資料匯入的步驟一樣,區別是在資料匯出中,資料來源配置需要配置為AnalyticDB PostgreSQL版(參見配置AnalyticDB for PostgreSQL資料來源),而目的端可以配置為其他的資料來源類型。

參考資訊

更多Data Integration詳細資料請參考DataWorks文檔