全部產品
Search
文件中心

DataWorks:建立並管理資料來源

更新時間:Dec 14, 2024

若您想在DataWorks操作您的資料庫或資料倉儲(例如,MaxCompute專案資料),需先在DataWorks的資料來源管理頁面,將資料庫或資料倉儲建立為DataWorks的資料來源,並將該資料來源綁定至DataWorks相應的功能模組使用。例如,同步MaxCompute資料前,需先建立MaxCompute資料來源,建立完成後可在Data Integration模組選擇該資料來源,控制同步任務讀取或寫入的資料庫或資料倉儲。

背景資訊

為了給您帶來更為統一的產品使用體驗,DataWorks於2023年10月20日開始逐步將MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、ClickHouse計算引擎合并至資料來源管理;將E-MapReduce(簡稱EMR)、CDH/CDP引擎合并至開源叢集管理。合并後,原計算引擎的相關操作(例如,建立、編輯)將通過資料來源/開源叢集介面執行。詳情請參見DataWorks新版資料來源公告

許可權控制

僅擁有營運空間管理員角色的空間成員,以及擁有AliyunDataWorksFullAccessAdministratorAccess權限原則的RAM角色可建立資料來源,授權詳情請參見空間級模組許可權管控為RAM使用者授權

除上述許可權外,部分資料來源建立時還會存在其他許可權控制,請根據介面提示進行授權。

資料來源環境隔離

標準模式的工作空間支援資料來源隔離功能。您可以分別建立開發環境和生產環境的資料來源,使測試與生產調度操作的資料來源隔離,以保護您的生產資料安全。詳情請參見附錄:資料來源環境介紹

  • 開發環境的資料來源:可在資料同步節點中選擇,並在開發環境運行,但無法提交到生產環境或在生產環境運行。

  • 生產環境的資料來源:無法在資料同步節點中選擇,且只允許在生產環境使用。

支援的資料來源類型

DataWorks目前支援的資料來源類型請參見資料來源列表。其中,主要用於調度任務使用的資料來源為MaxComputeHologresAnalyticDB for PostgreSQLAnalyticDB for MySQL3.0ClickHouseEMRCDH/CDP

說明
  • 對於CDH/CDP、EMR叢集:

    • 如需使用叢集的某個組件(例如,Hive),則可在資料來源管理頁面單獨將該組件建立為相應資料來源。

    • 如需在DataWorks上調度叢集任務,則要將整個叢集註冊到DataWorks中。詳情請參見註冊EMR叢集至DataWorks註冊CDH/CDP叢集

  • DataWorks不同功能模組可使用的資料來源存在差異,具體請以實際介面為準。

建立資料來源

  1. 進入管理中心頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  2. 單擊左側導覽列的資料來源 > 資料來源列表,進入資料來源頁面。

  3. 在資料來源頁面,您可根據需要選擇新增資料來源批量新增資料來源

    說明

    DataWorks支援建立的資料來源請參見支援的資料來源類型

    建立單個資料來源

    1. 單擊新增資料來源,選擇需要建立的資料來源類型並配置資料來源資訊。不同資料來源的配置存在差異,詳細的配置參數解釋可在配置介面查看對應參數的文案提示

    2. (可選)測試資源群組連通性。

      串連配置地區,找到工作空間綁定的資源群組,單擊連通狀態列的測試連通性

      說明

      不同資源群組的屬性及特點不同,詳情請參見DataWorks資源群組概述

      • 如果顯示可連通,則單擊完成

      • 如果顯示無法連通,表示資源群組與資料來源無法連通,後續相應資料來源任務將無法正常執行。

        說明

        無法連通時,您可採取以下措施進行解決。

        • 根據右側彈出的連通性診斷工具視窗,自助解決連通性問題。

        • 如果連通性診斷工具未給出具體解決辦法,請檢查您設定的帳號、密碼、串連地址等參數,以及確保將資源群組的IP地址加入到資料來源的白名單中。更多資訊,請參見網路連通

        • Serverless資源群組預設不具備公網訪問能力需要為綁定的VPC配置公網NAT Gateway和EIP後,才支援公網訪問資料來源。

    大量建立資料來源

    單擊批量新增資料來源,按如下步驟選擇需要建立的資料來源類型並配置資料來源資訊。目前僅支援大量建立MySQL、PolarDB、SQLServer和Oracle資料來源。

    1. 選擇相應資料來源並下載該資料來源的配置資訊模板。

      建立資料來源的方式不同(串連串模式執行個體模式),則模板配置資訊不同,具體請以實際介面為準。

    2. 根據模板格式填寫資料來源資訊。

    3. 填寫完後上傳模板檔案並啟動建立資料來源。

      建立資料來源時,您可根據介面文字框的提示,查看資料來源的建立進度及詳情。若建立失敗,請基於相應報錯解決處理。

說明
  • DataWorks支援通過串連串模式執行個體模式建立資料來源,不同建立方式的配置資訊存在差異,請根據需要選擇。

    當使用串連串模式配置資料來源時,DataWorks會對資料來源的JDBC URL進行解析。若JDBC URL中包含DataWorks暫不支援的參數,DataWorks會將該參數移除。若您希望在JDBC URL中繼續使用DataWorks不支援的參數,則請提交工單聯絡技術支援人員諮詢。

  • 同一個資料來源名稱可分別配置開發環境資料來源、生產環境資料來源,且不同環境的資料來源配置是相互獨立的。

管理資料來源

在資料來源管理頁面,您可根據資料來源類型資料來源名稱篩選需要查看的資料來源。同時,支援您對目標資料來源執行如下管理操作:image.png

  • 編輯:可根據需要修改資料來源的配置資訊。資料來源的名稱及適用環境無法更改。

  • 刪除:可根據需要刪除無需使用的資料來源,刪除資料來源對DataWorks不同模組功能的影響如下。

    說明
    • 若資料來源已授權跨工作空間的使用者使用,則刪除資料來源後,跨工作空間使用該資料來源的任務會執行失敗。

    • 如果刪除時提示該資料來源已經被綁定為計算引擎xxxx,請先解除綁定後再試!,則表示該資料來源已被資料開發模組綁定為計算資源,需先解除綁定後再刪除。您可以在管理中心左側導覽列單擊計算引擎,找到待刪除的資料來源,然後單擊解除綁定

    • Data Integration模組的影響。

      刪除不同環境資料來源

      操作影響

      刪除資料來源前的處理方案

      開發環境和生產環境

      需確認是否存在生產環境關聯的同步任務,操作無法復原。若此資料來源配置的同步任務已在生產環境使用,刪除後:

      • 生產環境的任務將無法正常運行。請刪除同步任務後再刪除此資料來源。

      • 在開發環境配置同步任務時此資料來源不可見。

      通過大量操作修改任務資料來源,並重新提交、發布任務。

      僅開發環境

      需確認是否存在生產環境關聯的同步任務,操作無法復原。若此資料來源配置的同步任務已在生產環境使用,刪除後:

      • 生產環境的任務可以正常運行,但任務編輯時將不能擷取到中繼資料資訊。

      • 在開發環境配置同步任務時此資料來源不可見。

      僅生產環境

      需確認是否存在生產環境關聯的同步任務。若此資料來源配置的同步任務已在生產環境使用,刪除後:

      • 生產環境的任務無法正常運行。請刪除同步任務後再刪除此資料來源。

      • 在開發環境使用此資料來源配置的同步任務時,該任務將不能提交生產發布。

    • 其他模組的影響。

      功能模組

      操作風險等級

      操作影響

      相關任務

      刪除資料來源前的處理方案

      營運中心

      導致相關任務運行失敗。

      通過大量操作修改任務歸屬資料來源,並重新提交、發布任務。

      資料服務API

      導致相關任務調用失敗。

      更換資料服務API資料來源。

      資料分析

      導致相關任務查詢失敗。

      通過資料分析執行的查詢任務。

      更換SQL查詢資料來源。

      資料品質

      導致相關任務檢查異常。

      已配置資料品質監控規則的任務,詳情請參見查看品質監控執行詳情

      前往營運中心,將任務與DQC規則取消關聯。詳情請參見管理周期任務

  • 複製:可通過複製功能,快速產生一個與當前資料來源配置資訊相同的新資料來源。

    說明

    新資料來源的名稱需要重新定義,不能與當前資料來源名稱相同。

  • 許可權管理:您可通過資料來源的許可權管理功能,授權其他工作空間下的某使用者使用當前資料來源。授權後,該使用者擁有資料來源的查看及使用許可權,但無法編輯資料來源。詳情請參見管理資料來源許可權

    說明

    若授權某個工作空間擁有資料來源許可權,則工作空間中的所有成員均擁有該資料來源的查看及使用許可權。

附錄:資料來源環境介紹

標準模式工作空間下,同一個名稱的資料來源存在開發環境和生產環境兩套配置,這兩套配置可對應底層兩個資料庫/資料倉儲,針對不同環境您可設定不同的資料來源資訊,使測試與生產調度操作的資料來源隔離,以保護生產資料的安全。例如,執行離線同步任務時,可由運行環境控制任務所訪問的資料庫地址(配置生產、開發資料來源對應不同資料庫),使開發環境和生產環境的資料隔離。

說明

樣本

標準模式工作空間中,任務在不同環境執行時所訪問的資料來源如下:

  • 在資料開發(DataStudio)模組與開發環境營運中心執行,預設訪問開發環境的資料來源。

  • 在生產環境營運中心執行,預設訪問生產環境的資料來源。

說明
  • 配置資料來源時,請確認開發環境、生產環境的資料來源分別對應的資料庫/資料倉儲是否符合業務現狀。當開發環境和生產環境資料來源的配置不同時(例如,資料庫帳號密碼不同),可能出現如下問題:

    • 任務在資料開發(DataStudio)執行成功,在生產調度時執行失敗。

    • 任務在資料開發(DataStudio)與在生產調度執行時產生的資料量不一致。

    上述問題您可對比開發環境與生產環境的作業記錄排查解決。

  • 若資料來源開發環境與生產環境配置不同,請確保任務運行時使用的資源群組可分別與開發環境、生產環境的資料來源連通。