全部產品
Search
文件中心

DataWorks:建立MaxCompute資料來源

更新時間:Aug 22, 2024

若您要使用DataWorks進行MaxCompute任務的開發、管理,需先將您的MaxCompute專案建立為DataWorks的MaxCompute資料來源。建立完成後,可在DataWorks的各功能模組使用該資料來源串連MaxCompute專案,進行相應的資料同步、資料開發、資料分析等操作。

前提條件

  • 已購買MaxCompute,詳情請參見開通MaxCompute

    說明

    建議購買MaxCompute的地區與建立MaxCompute資料來源的DataWorks工作空間地區一致。若地區不一致,則只能建立為跨地區的資料來源,此類資料來源無法在DataWorks的資料開發(DataStudio)模組綁定,即無法用於資料開發或周期性調度任務,僅可進行資料同步任務。

  • 已購買所需DataWorks資源群組並完成資源群組配置。

    MaxCompute資料來源建立完成後,可用於進行資料同步、計算任務開發與調度、產生API提供資料服務等應用情境,各情境需分別使用DataWorks的Data Integration資源群組、調度資源群組、資料服務資源群組。

    您需根據應用情境提前準備對應的資源群組並完成配置,在建立MaxCompute資料來源時確保與對應資源群組間網路連通。各資源群組的介紹與配置引導,請參見DataWorks資源群組概述

  • 已建立或加入目標工作空間。

    您需在目標工作空間中,將MaxCompute專案建立為該工作空間的資料來源,用於後續在該工作空間進行開發操作。同時,需將購買的DataWorks資源群組綁定至該工作空間,確保資料來源與資源群組網路連通。建立工作空間,詳情請參見建立並管理工作空間

    說明

    同一個MaxCompute專案可在多個DataWorks工作空間中被建立為資料來源。

使用限制

  • 僅當MaxCompute專案和DataWorks工作空間屬於同地區、同一阿里雲帳號時,基於該專案建立的資料來源才可在DataWorks的資料開發(DataStudio)模組綁定,即此類資料來源才可用於資料開發或周期性調度任務。

  • 支援跨帳號建立資料來源,即支援將其他阿里雲帳號下的MaxCompute專案建立為資料來源,但資料來源建立完成後僅支援通過RAM角色訪問對應專案,並且該類資料來源不能用於資料開發或周期性調度任務。詳情請參見情境:跨帳號建立MaxCompute資料來源

  • 營運空間管理員角色可建立資料來源。授權使用者擁有該類角色,詳情請參見增加空間成員並管理成員角色許可權

    說明

    除上述空間角色許可權外,建立MaxCompute資料來源時還會存在其他MaxCompute側許可權控制,您需根據介面提示進行授權。詳情請參見下文許可權說明章節。

許可權說明

  • 使用RAM使用者或角色建立資料來源:

  • 設定生產資料來源的預設訪問身份為RAM使用者或角色:

    • 如需將預設訪問身份設定為其他阿里雲帳號或角色(即非當前登入帳號的其他身份),需擁有MaxCompute專案的admin或super_administrator許可權,且資料來源建立完成後,該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。配置預設訪問身份,詳情請參見下文的建立資料來源章節。

    • 當前工作空間下的生產資料,均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表,需在資訊安全中心申請相關許可權。相關介紹及操作,請參見MaxCompute資料存取權限控制核准中心概述

      說明

      簡單模式工作空間無法做到細粒度許可權控制,以下內容為標準模式工作空間下的影響說明。

資料來源建立入口

  1. 進入資料來源頁面。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 進入工作空間管理中心頁面後,單擊左側導覽列的資料來源 > 資料來源列表,進入資料來源頁面。

  2. 單擊新增資料來源,選擇MaxCompute,根據介面指引建立資料來源。

    您也可進入Data Integration介面建立,但該頁面僅支援建立生產資料來源,且建立完成後需在管理中心 > 資料來源進行管理。Data Integration頁面支援建立的資料來源類型,具體請以實際介面為準。

建立資料來源

DataWorks支援通過如下兩種方式建立新版資料來源。

說明

標準模式工作空間,需分別建立開發環境資料來源和生產環境資料來源。工作空間模式,詳情請參見必讀:簡單模式和標準模式的區別

方式一:通過已有MaxCompute專案建立資料來源

若您已有MaxCompute專案,則可將已有MaxCompute專案添加為當前工作空間的資料來源。

通過該方式建立資料來源,需擁有MaxCompute的odps:ListProjects許可權,以及目標MaxCompute專案的Super_Administrator許可權。

建立資料來源配置如下。

  1. 配置基礎資訊。image.png

    參數

    說明

    資料來源名稱

    定義資料來源在DataWorks的名稱,名稱必須唯一。

    認證方式

    建立的資料來源僅支援通過阿里雲帳號及阿里雲RAM角色身份進行認證。

    說明

    歷史存量使用AccessID及AccessKey建立的資料來源,建議後續修改時通過阿里雲帳號及阿里雲RAM角色身份進行認證。

    所屬雲帳號

    定義添加哪個帳號下的MaxCompute專案作為當前工作空間的資料來源。

    • 當前阿里雲主帳號:添加當前阿里雲主帳號下的MaxCompute專案作為當前工作空間的資料來源。

    • 其他阿里雲主帳號:添加其他阿里雲主帳號下的MaxCompute專案作為當前工作空間的資料來源。

    請根據選擇的帳號類型,參照下文配置其他配置項。

    地區

    MaxCompute專案所在地區。

    說明

    若選擇的MaxCompute專案與當前工作空間不在同一地區,則將MaxCompute專案添加為資料來源後,此類資料來源無法在DataWorks的資料開發(DataStudio)模組綁定,即不支援在資料開發(DataStudio)、營運中心使用,僅用於Data Integration模組進行資料同步。

    其他配置(使用當前阿里雲主帳號)

    所屬雲帳號選擇當前阿里雲主帳號時,您需配置如下參數:

    • MaxCompute專案名稱:選擇需將指定地區下哪一個MaxCompute專案添加為當前工作空間的資料來源。

      說明

      若無法選擇目標MaxCompute專案,則請授予當前登入帳號該專案的Super_Administrator許可權。授權詳情請參見許可權說明

    • 預設訪問身份:定義在當前工作空間下,用什麼身份訪問該資料來源。

      • 開發環境:當前僅支援使用執行者身份訪問。

      • 生產環境:支援使用阿里雲主帳號、阿里雲RAM使用者(即子帳號)、阿里雲RAM角色訪問。

        說明
        • 僅阿里雲主帳號及擁有AdministratorAccess角色許可權的使用者或角色可選擇所有身份訪問。

        • 設定生產資料來源的預設訪問身份為RAM使用者或角色:

          如需將預設訪問身份設定為其他阿里雲帳號或角色(即非當前登入帳號的其他身份),需擁有MaxCompute專案的admin或super_administrator許可權,且資料來源建立完成後,該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。

        • 當前工作空間下的生產資料,均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表,需在資訊安全中心申請相關許可權。相關介紹及操作,請參見MaxCompute資料存取權限控制核准中心概述

    其他配置(使用其他阿里雲主帳號)

    所屬雲帳號選擇其他阿里雲主帳號時,您需配置如下參數:

    • 對方阿里雲主帳號UID:需添加的MaxCompute專案所屬的雲帳號UID。

    • 對方MaxCompute專案:需將對方帳號下哪一個MaxCompute專案作為當前工作空間的MaxCompute資料來源。

    • 對方RAM角色:訪問該MaxCompute專案的RAM角色。該角色需滿足如下條件:

      • 對方阿里雲主帳號中已建立RAM角色。

      • 對方阿里雲主帳號的RAM角色已授權當前帳號DataWorks服務訪問。

      • 所選擇的MaxCompute專案中已添加該角色。

    說明
    • 跨帳號添加資料來源的相關操作,詳情請參見情境:跨帳號建立MaxCompute資料來源

    • 若選擇的MaxCompute專案與DataWorks工作空間不在同一個阿里雲主帳號下,則將MaxCompute專案添加為資料來源後,此類資料來源無法在DataWorks的資料開發(DataStudio)模組綁定,即不支援在資料開發(DataStudio)、營運中心使用,僅用於Data Integration模組進行資料同步。

    Endpoint

    指定DataWorks通過該資料來源訪問MaxCompute專案的Endpoint地址。包括訪問MaxCompute服務的Endpoint地址,以及上傳、下載本地或雲資料來源資料的Tunnel服務地址。支援以下兩種配置:

    • 自動適配:DataWorks根據實際情況自動適配,建議選擇該項。

      說明

      若MaxCompute專案與DataWorks服務所在地區不一致,即存在跨地區訪問情境,自動適配情況下,Data Integration預設使用公網訪問地址讀取和下載資料。

    • 自訂配置:自訂情況下,您需手動設定MaxCompute Endpoint及Tunnel Endpoint,不同地區,Endpoint不同。詳情請參見Endpoint

  2. 測試資源群組連通性。

    根據使用情境不同,資源群組分為Data Integration(用於資料同步)、資料調度(用於任務調度)、資料服務(用於資料服務任務)三種類型。各類資源群組的詳細介紹,請參見DataWorks資源群組概述

    您需根據資料來源後續的用途,在串連配置地區對應資源群組類型後,測試所需資源群組的連通性。若資源群組與資料來源無法連通,則相應資料來源任務將無法正常執行。

    說明

    資料來源建立成功後平台會進行訪問身份授權,即將訪問身份帳號添加至MaxCompute專案中,並為該身份映射MaxCompute對應的許可權。在授權完成前,連通性測試可能會產生連通無許可權報錯,該情境下,儲存資料來源後,您需稍作等待。

方式二:通過建立MaxCompute專案建立資料來源

若您沒有可用MaxCompute專案,則可建立MaxCompute專案並將其添加為當前工作空間的資料來源。

通過該方式建立資料來源,需擁有MaxCompute的odps:CreateProject許可權。若使用RAM使用者或角色建立資料來源,資料來源建立完成後,該RAM使用者或角色將被MaxCompute專案添加為Super_Administrator

說明

通過該方式建立的資料來源,會預設將工作空間記憶體量和新增使用者均加入至MaxCompute開發專案。同時,使用者所擁有的角色會映射相應預設MaxCompute角色。詳情請參見附錄:空間級預設角色與MaxCompute引擎許可權的映射關係

建立資料來源配置如下。

  1. 配置基礎資訊。image.png

    參數

    說明

    資料來源名稱

    定義資料來源在DataWorks的名稱,名稱必須唯一。

    認證方式

    建立的資料來源僅支援通過阿里雲帳號及阿里雲RAM角色身份進行認證。

    所屬雲帳號

    僅支援通過當前阿里雲主帳號建立資料來源。

    地區

    僅支援在當前工作空間所在地區建立資料來源。

    專案名稱

    建立的MaxCompute專案命稱。建議按如下規範命名:

    • 生產環境:project_name

    • 開發環境:project_name_dev

    計算資源付費類型

    定義MaxCompute專案按照哪種付費方式進行計費,包括隨用隨付訂用帳戶。 關於MaxCompute計費模式詳情請參見計費項目與計費方式概述

    說明

    標準模式下不支援添加開發人員版本的執行個體。

    預設Quota

    定義MaxCompute專案使用的計算資源集區。關於Quota相關說明詳情請參見配額

    單SQL消費限制

    用於設定單個SQL語句的消費閾值,預防單個SQL語句產生高額費用。

    資料類型

    定義MaxCompute專案使用哪一類資料類型。包括2.0資料類型(推薦)1.0資料類型(面向已有使用1.0資料類型使用者)Hive相容類型(面向Hive遷移使用者),詳情請參見:資料類型版本說明

    是否加密

    根據實際情況選擇當前MaxCompute專案是否需要通過Key Management Service(Key Management Service)對資料進行儲存加密,詳情請參見儲存加密

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該資料來源。

    • 開發環境:當前僅支援使用執行者身份訪問。

    • 生產環境:支援使用阿里雲主帳號、阿里雲RAM使用者(即子帳號)、阿里雲RAM角色訪問。

      說明
      • 僅阿里雲主帳號及擁有AdministratorAccess角色許可權的使用者或角色可選擇所有身份訪問。

      • 設定生產資料來源的預設訪問身份為RAM使用者或角色:

        如需將預設訪問身份設定為其他阿里雲帳號或角色(即非當前登入帳號的其他身份),需擁有MaxCompute專案的admin或super_administrator許可權,且資料來源建立完成後,該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。

      • 當前工作空間下的生產資料,均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表,需在資訊安全中心申請相關許可權。相關介紹及操作,請參見MaxCompute資料存取權限控制核准中心概述

    Endpoint

    指定DataWorks通過該資料來源訪問MaxCompute專案的Endpoint地址。包括訪問MaxCompute服務的Endpoint地址,以及上傳、下載本地或雲資料來源資料的Tunnel服務地址。支援以下兩種配置:

    • 自動適配:DataWorks根據實際情況自動適配,建議選擇該項。

      說明

      若MaxCompute專案與DataWorks服務所在地區不一致,即存在跨地區訪問情境,自動適配情況下,Data Integration預設使用公網訪問地址讀取和下載資料。

    • 自訂配置:自訂情況下,您需手動設定MaxCompute Endpoint及Tunnel Endpoint,不同地區,Endpoint不同。詳情請參見Endpoint

  2. 測試資源群組連通性。

    根據使用情境不同,資源群組分為Data Integration(用於資料同步)、資料調度(用於任務調度)、資料服務(用於資料服務任務)三種類型。各類資源群組的詳細介紹,請參見DataWorks資源群組概述

    您需根據資料來源後續的用途,在串連配置地區對應資源群組類型後,測試所需資源群組的連通性。若資源群組與資料來源無法連通,則相應資料來源任務將無法正常執行。

    說明

    資料來源建立成功後平台會進行訪問身份授權,即將訪問身份帳號添加至MaxCompute專案中,並為該身份映射MaxCompute對應的許可權。在授權完成前,連通性測試可能會產生連通無許可權報錯,該情境下,儲存資料來源後,您需稍作等待。

後續操作

為保障您的開發過程更加順暢,建議先閱讀DataWorks On MaxCompute使用說明,瞭解在DataWorks使用MaxCompute的開發流程、相關費用、環境準備、許可權控制等內容。

資料來源建立完成後,您可根據需要執行如下操作:

  • 計算任務開發與調度

    DataWorks的資料開發與營運中心模組,為您提供MaxCompute任務的開發與調度能力,若您需要基於該MaxCompute資料來源進行MaxCompute任務開發,或周期性調度MaxCompute相關任務,需先進入資料開發(DataStudio)頁面,將建立的資料來源綁定至資料開發(DataStudio)。

    說明

    僅當MaxCompute專案和DataWorks工作空間同地區、同帳號時,基於該專案建立的資料來源才可綁定至資料開發(DataStudio)。

  • 進行資料同步

    DataWorks的Data Integration模組為您提供讀取和寫入資料至MaxCompute的能力,您可將其他資料來源的資料同步至當前MaxCompute資料來源,或將當前MaxCompute資料來源的資料同步至其他資料來源。同時,可根據需要選擇離線同步、即時同步、同步解決方案等情境執行相關資料同步操作。

  • 增刪改查資料來源:進入資料來源管理頁面執行編輯、刪除等管理操作。