若您要使用DataWorks進行MaxCompute任務的開發、管理,需先將您的MaxCompute專案建立為DataWorks的MaxCompute資料來源。建立完成後,可在DataWorks的各功能模組使用該資料來源串連MaxCompute專案,進行相應的資料同步、資料開發、資料分析等操作。
前提條件
已購買MaxCompute,詳情請參見開通MaxCompute。
說明建議購買MaxCompute的地區與建立MaxCompute資料來源的DataWorks工作空間地區一致。若地區不一致,則只能建立為跨地區的資料來源,此類資料來源無法在DataWorks的資料開發(DataStudio)模組綁定,即無法用於資料開發或周期性調度任務,僅可進行資料同步任務。
已購買所需DataWorks資源群組並完成資源群組配置。
MaxCompute資料來源建立完成後,可用於進行資料同步、計算任務開發與調度、產生API提供資料服務等應用情境,各情境需分別使用DataWorks的Data Integration資源群組、調度資源群組、資料服務資源群組。
您需根據應用情境提前準備對應的資源群組並完成配置,在建立MaxCompute資料來源時確保與對應資源群組間網路連通。各資源群組的介紹與配置引導,請參見DataWorks資源群組概述。
已建立或加入目標工作空間。
您需在目標工作空間中,將MaxCompute專案建立為該工作空間的資料來源,用於後續在該工作空間進行開發操作。同時,需將購買的DataWorks資源群組綁定至該工作空間,確保資料來源與資源群組網路連通。建立工作空間,詳情請參見建立並管理工作空間。
說明同一個MaxCompute專案可在多個DataWorks工作空間中被建立為資料來源。
使用限制
僅當MaxCompute專案和DataWorks工作空間屬於同地區、同一阿里雲帳號時,基於該專案建立的資料來源才可在DataWorks的資料開發(DataStudio)模組綁定,即此類資料來源才可用於資料開發或周期性調度任務。
支援跨帳號建立資料來源,即支援將其他阿里雲帳號下的MaxCompute專案建立為資料來源,但資料來源建立完成後僅支援通過RAM角色訪問對應專案,並且該類資料來源不能用於資料開發或周期性調度任務。詳情請參見情境:跨帳號建立MaxCompute資料來源。
僅營運和空間管理員角色可建立資料來源。授權使用者擁有該類角色,詳情請參見增加空間成員並管理成員角色許可權。
說明除上述空間角色許可權外,建立MaxCompute資料來源時還會存在其他MaxCompute側許可權控制,您需根據介面提示進行授權。詳情請參見下文許可權說明章節。
許可權說明
使用RAM使用者或角色建立資料來源:
通過建立MaxCompute專案建立資料來源,需擁有MaxCompute的odps:CreateProject許可權。資料來源建立完成後,該RAM使用者或角色將被MaxCompute專案添加為Super_Administrator。
說明標準模式工作空間區分開發及生產環境,對應的MaxCompute開發及生產專案需分別添加RAM使用者或角色為Super_Administrator。
通過已有MaxCompute專案建立資料來源,需擁有MaxCompute的odps:ListProjects許可權,以及目標MaxCompute專案的Super_Administrator許可權。
設定生產資料來源的預設訪問身份為RAM使用者或角色:
如需將預設訪問身份設定為其他阿里雲帳號或角色(即非當前登入帳號的其他身份),需擁有MaxCompute專案的admin或super_administrator許可權,且資料來源建立完成後,該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。配置預設訪問身份,詳情請參見下文的建立資料來源章節。
當前工作空間下的生產資料,均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表,需在資訊安全中心申請相關許可權。相關介紹及操作,請參見MaxCompute資料存取權限控制、核准中心概述。
說明簡單模式工作空間無法做到細粒度許可權控制,以下內容為標準模式工作空間下的影響說明。
資料來源建立入口
進入資料來源頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心。
進入工作空間管理中心頁面後,單擊左側導覽列的
,進入資料來源頁面。
單擊新增資料來源,選擇MaxCompute,根據介面指引建立資料來源。
您也可進入Data Integration介面建立,但該頁面僅支援建立生產資料來源,且建立完成後需在
進行管理。Data Integration頁面支援建立的資料來源類型,具體請以實際介面為準。
建立資料來源
DataWorks支援通過如下兩種方式建立新版資料來源。
標準模式工作空間,需分別建立開發環境資料來源和生產環境資料來源。工作空間模式,詳情請參見必讀:簡單模式和標準模式的區別。
方式一:通過已有MaxCompute專案建立資料來源
若您已有MaxCompute專案,則可將已有MaxCompute專案添加為當前工作空間的資料來源。
通過該方式建立資料來源,需擁有MaxCompute的odps:ListProjects許可權,以及目標MaxCompute專案的Super_Administrator許可權。
建立資料來源配置如下。
配置基礎資訊。
參數
說明
資料來源名稱
定義資料來源在DataWorks的名稱,名稱必須唯一。
認證方式
建立的資料來源僅支援通過阿里雲帳號及阿里雲RAM角色身份進行認證。
說明歷史存量使用AccessID及AccessKey建立的資料來源,建議後續修改時通過阿里雲帳號及阿里雲RAM角色身份進行認證。
所屬雲帳號
定義添加哪個帳號下的MaxCompute專案作為當前工作空間的資料來源。
當前阿里雲主帳號:添加當前阿里雲主帳號下的MaxCompute專案作為當前工作空間的資料來源。
其他阿里雲主帳號:添加其他阿里雲主帳號下的MaxCompute專案作為當前工作空間的資料來源。
請根據選擇的帳號類型,參照下文配置其他配置項。
地區
MaxCompute專案所在地區。
說明若選擇的MaxCompute專案與當前工作空間不在同一地區,則將MaxCompute專案添加為資料來源後,此類資料來源無法在DataWorks的資料開發(DataStudio)模組綁定,即不支援在資料開發(DataStudio)、營運中心使用,僅用於Data Integration模組進行資料同步。
其他配置(使用當前阿里雲主帳號)
當所屬雲帳號選擇當前阿里雲主帳號時,您需配置如下參數:
MaxCompute專案名稱:選擇需將指定地區下哪一個MaxCompute專案添加為當前工作空間的資料來源。
說明若無法選擇目標MaxCompute專案,則請授予當前登入帳號該專案的Super_Administrator許可權。授權詳情請參見許可權說明。
預設訪問身份:定義在當前工作空間下,用什麼身份訪問該資料來源。
開發環境:當前僅支援使用執行者身份訪問。
生產環境:支援使用阿里雲主帳號、阿里雲RAM使用者(即子帳號)、阿里雲RAM角色訪問。
說明僅阿里雲主帳號及擁有AdministratorAccess角色許可權的使用者或角色可選擇所有身份訪問。
設定生產資料來源的預設訪問身份為RAM使用者或角色:
如需將預設訪問身份設定為其他阿里雲帳號或角色(即非當前登入帳號的其他身份),需擁有MaxCompute專案的admin或super_administrator許可權,且資料來源建立完成後,該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。
當前工作空間下的生產資料,均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表,需在資訊安全中心申請相關許可權。相關介紹及操作,請參見MaxCompute資料存取權限控制、核准中心概述。
其他配置(使用其他阿里雲主帳號)
當所屬雲帳號選擇其他阿里雲主帳號時,您需配置如下參數:
對方阿里雲主帳號UID:需添加的MaxCompute專案所屬的雲帳號UID。
對方MaxCompute專案:需將對方帳號下哪一個MaxCompute專案作為當前工作空間的MaxCompute資料來源。
對方RAM角色:訪問該MaxCompute專案的RAM角色。該角色需滿足如下條件:
對方阿里雲主帳號中已建立RAM角色。
對方阿里雲主帳號的RAM角色已授權當前帳號DataWorks服務訪問。
所選擇的MaxCompute專案中已添加該角色。
說明跨帳號添加資料來源的相關操作,詳情請參見情境:跨帳號建立MaxCompute資料來源。
若選擇的MaxCompute專案與DataWorks工作空間不在同一個阿里雲主帳號下,則將MaxCompute專案添加為資料來源後,此類資料來源無法在DataWorks的資料開發(DataStudio)模組綁定,即不支援在資料開發(DataStudio)、營運中心使用,僅用於Data Integration模組進行資料同步。
Endpoint
指定DataWorks通過該資料來源訪問MaxCompute專案的Endpoint地址。包括訪問MaxCompute服務的Endpoint地址,以及上傳、下載本地或雲資料來源資料的Tunnel服務地址。支援以下兩種配置:
自動適配:DataWorks根據實際情況自動適配,建議選擇該項。
說明若MaxCompute專案與DataWorks服務所在地區不一致,即存在跨地區訪問情境,自動適配情況下,Data Integration預設使用公網訪問地址讀取和下載資料。
自訂配置:自訂情況下,您需手動設定MaxCompute Endpoint及Tunnel Endpoint,不同地區,Endpoint不同。詳情請參見Endpoint。
測試資源群組連通性。
根據使用情境不同,資源群組分為Data Integration(用於資料同步)、資料調度(用於任務調度)、資料服務(用於資料服務任務)三種類型。各類資源群組的詳細介紹,請參見DataWorks資源群組概述。
您需根據資料來源後續的用途,在串連配置地區對應資源群組類型後,測試所需資源群組的連通性。若資源群組與資料來源無法連通,則相應資料來源任務將無法正常執行。
說明資料來源建立成功後平台會進行訪問身份授權,即將訪問身份帳號添加至MaxCompute專案中,並為該身份映射MaxCompute對應的許可權。在授權完成前,連通性測試可能會產生連通無許可權報錯,該情境下,儲存資料來源後,您需稍作等待。
方式二:通過建立MaxCompute專案建立資料來源
若您沒有可用MaxCompute專案,則可建立MaxCompute專案並將其添加為當前工作空間的資料來源。
通過該方式建立資料來源,需擁有MaxCompute的odps:CreateProject許可權。若使用RAM使用者或角色建立資料來源,資料來源建立完成後,該RAM使用者或角色將被MaxCompute專案添加為Super_Administrator。
通過該方式建立的資料來源,會預設將工作空間記憶體量和新增使用者均加入至MaxCompute開發專案。同時,使用者所擁有的角色會映射相應預設MaxCompute角色。詳情請參見附錄:空間級預設角色與MaxCompute引擎許可權的映射關係。
建立資料來源配置如下。
配置基礎資訊。
參數
說明
資料來源名稱
定義資料來源在DataWorks的名稱,名稱必須唯一。
認證方式
建立的資料來源僅支援通過阿里雲帳號及阿里雲RAM角色身份進行認證。
所屬雲帳號
僅支援通過當前阿里雲主帳號建立資料來源。
地區
僅支援在當前工作空間所在地區建立資料來源。
專案名稱
建立的MaxCompute專案命稱。建議按如下規範命名:
生產環境:project_name
開發環境:project_name_dev
計算資源付費類型
定義MaxCompute專案按照哪種付費方式進行計費,包括隨用隨付和訂用帳戶。 關於MaxCompute計費模式詳情請參見計費項目與計費方式概述。
說明標準模式下不支援添加開發人員版本的執行個體。
預設Quota
定義MaxCompute專案使用的計算資源集區。關於Quota相關說明詳情請參見配額。
單SQL消費限制
用於設定單個SQL語句的消費閾值,預防單個SQL語句產生高額費用。
資料類型
定義MaxCompute專案使用哪一類資料類型。包括2.0資料類型(推薦)、1.0資料類型(面向已有使用1.0資料類型使用者)和Hive相容類型(面向Hive遷移使用者),詳情請參見:資料類型版本說明。
是否加密
根據實際情況選擇當前MaxCompute專案是否需要通過Key Management Service(Key Management Service)對資料進行儲存加密,詳情請參見儲存加密。
預設訪問身份
定義在當前工作空間下,用什麼身份訪問該資料來源。
開發環境:當前僅支援使用執行者身份訪問。
生產環境:支援使用阿里雲主帳號、阿里雲RAM使用者(即子帳號)、阿里雲RAM角色訪問。
說明僅阿里雲主帳號及擁有AdministratorAccess角色許可權的使用者或角色可選擇所有身份訪問。
設定生產資料來源的預設訪問身份為RAM使用者或角色:
如需將預設訪問身份設定為其他阿里雲帳號或角色(即非當前登入帳號的其他身份),需擁有MaxCompute專案的admin或super_administrator許可權,且資料來源建立完成後,該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。
當前工作空間下的生產資料,均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表,需在資訊安全中心申請相關許可權。相關介紹及操作,請參見MaxCompute資料存取權限控制、核准中心概述。
Endpoint
指定DataWorks通過該資料來源訪問MaxCompute專案的Endpoint地址。包括訪問MaxCompute服務的Endpoint地址,以及上傳、下載本地或雲資料來源資料的Tunnel服務地址。支援以下兩種配置:
自動適配:DataWorks根據實際情況自動適配,建議選擇該項。
說明若MaxCompute專案與DataWorks服務所在地區不一致,即存在跨地區訪問情境,自動適配情況下,Data Integration預設使用公網訪問地址讀取和下載資料。
自訂配置:自訂情況下,您需手動設定MaxCompute Endpoint及Tunnel Endpoint,不同地區,Endpoint不同。詳情請參見Endpoint。
測試資源群組連通性。
根據使用情境不同,資源群組分為Data Integration(用於資料同步)、資料調度(用於任務調度)、資料服務(用於資料服務任務)三種類型。各類資源群組的詳細介紹,請參見DataWorks資源群組概述。
您需根據資料來源後續的用途,在串連配置地區對應資源群組類型後,測試所需資源群組的連通性。若資源群組與資料來源無法連通,則相應資料來源任務將無法正常執行。
說明資料來源建立成功後平台會進行訪問身份授權,即將訪問身份帳號添加至MaxCompute專案中,並為該身份映射MaxCompute對應的許可權。在授權完成前,連通性測試可能會產生連通無許可權報錯,該情境下,儲存資料來源後,您需稍作等待。
後續操作
為保障您的開發過程更加順暢,建議先閱讀DataWorks On MaxCompute使用說明,瞭解在DataWorks使用MaxCompute的開發流程、相關費用、環境準備、許可權控制等內容。
資料來源建立完成後,您可根據需要執行如下操作:
DataWorks的資料開發與營運中心模組,為您提供MaxCompute任務的開發與調度能力,若您需要基於該MaxCompute資料來源進行MaxCompute任務開發,或周期性調度MaxCompute相關任務,需先進入資料開發(DataStudio)頁面,將建立的資料來源綁定至資料開發(DataStudio)。
說明僅當MaxCompute專案和DataWorks工作空間同地區、同帳號時,基於該專案建立的資料來源才可綁定至資料開發(DataStudio)。
DataWorks的Data Integration模組為您提供讀取和寫入資料至MaxCompute的能力,您可將其他資料來源的資料同步至當前MaxCompute資料來源,或將當前MaxCompute資料來源的資料同步至其他資料來源。同時,可根據需要選擇離線同步、即時同步、同步解決方案等情境執行相關資料同步操作。
增刪改查資料來源:進入資料來源管理頁面執行編輯、刪除等管理操作。