將MaxCompute專案建立為DataWorks的MaxCompute資料來源 - DataWorks

若您要使用DataWorks進行MaxCompute任務的開發、管理，需先將您的MaxCompute專案建立為DataWorks的MaxCompute資料來源。建立完成後，可在DataWorks的各功能模組使用該資料來源串連MaxCompute專案，進行相應的資料同步、資料開發、資料分析等操作。

前提條件

已購買MaxCompute，詳情請參見開通MaxCompute。
說明
建議購買MaxCompute的地區與建立MaxCompute資料來源的DataWorks工作空間地區一致。若地區不一致，則只能建立為跨地區的資料來源，此類資料來源無法在DataWorks的資料開發（DataStudio）模組綁定，即無法用於資料開發或周期性調度任務，僅可進行資料同步任務。
已購買所需DataWorks資源群組並完成資源群組配置。
MaxCompute資料來源建立完成後，可用於進行資料同步、計算任務開發與調度、產生API提供資料服務等應用情境，各情境需分別使用DataWorks的Data Integration資源群組、調度資源群組、資料服務資源群組。
您需根據應用情境提前準備對應的資源群組並完成配置，在建立MaxCompute資料來源時確保與對應資源群組間網路連通。各資源群組的介紹與配置引導，請參見DataWorks資源群組概述。
已建立或加入目標工作空間。
您需在目標工作空間中，將MaxCompute專案建立為該工作空間的資料來源，用於後續在該工作空間進行開發操作。同時，需將購買的DataWorks資源群組綁定至該工作空間，確保資料來源與資源群組網路連通。建立工作空間，詳情請參見建立並管理工作空間。
說明
同一個MaxCompute專案可在多個DataWorks工作空間中被建立為資料來源。

使用限制

僅當MaxCompute專案和DataWorks工作空間屬於同地區、同一阿里雲帳號時，基於該專案建立的資料來源才可在DataWorks的資料開發（DataStudio）模組綁定，即此類資料來源才可用於資料開發或周期性調度任務。
支援跨帳號建立資料來源，即支援將其他阿里雲帳號下的MaxCompute專案建立為資料來源，但資料來源建立完成後僅支援通過RAM角色訪問對應專案，並且該類資料來源不能用於資料開發或周期性調度任務。詳情請參見情境：跨帳號建立資料來源。
僅營運和空間管理員角色可建立資料來源。授權使用者擁有該類角色，詳情請參見增加空間成員並管理成員角色許可權。
說明
除上述空間角色許可權外，建立MaxCompute資料來源時還會存在其他MaxCompute側許可權控制，您需根據介面提示進行授權。詳情請參見下文許可權說明章節。

許可權說明

使用RAM使用者或角色建立資料來源：建立MaxCompute資料來源，需擁有MaxCompute的odps:ListProjects許可權，以及目標MaxCompute專案的Super_Administrator許可權。
設定生產資料來源的預設訪問身份為RAM使用者或角色：
- 如需將預設訪問身份設定為其他阿里雲帳號或角色（即非當前登入帳號的其他身份），需擁有MaxCompute專案的admin或super_administrator許可權，且資料來源建立完成後，該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。配置預設訪問身份，詳情請參見下文的建立資料來源章節。
- 當前工作空間下的生產資料，均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表，需在資訊安全中心申請相關許可權。相關介紹及操作，請參見MaxCompute資料存取權限控制、核准中心概述。
  說明
  簡單模式工作空間無法做到細粒度許可權控制，以下內容為標準模式工作空間下的影響說明。

資料來源建立入口

進入資料來源頁面。
1. 登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的更多 > 管理中心，在下拉框中選擇對應工作空間後單擊進入管理中心。
2. 進入工作空間管理中心頁面後，單擊左側導覽列的資料來源 > 資料來源列表，進入資料來源頁面。
單擊新增資料來源，選擇MaxCompute，根據介面指引建立資料來源。
您也可進入Data Integration介面建立，但該頁面僅支援建立生產資料來源，且建立完成後需在管理中心 > 資料來源進行管理。Data Integration頁面支援建立的資料來源類型，具體請以實際介面為準。

建立MaxCompute資料來源

若您已有MaxCompute專案，則可將已有MaxCompute專案添加為當前工作空間的資料來源，若您沒有MaxCompute專案，則需前往MaxCompute控制台建立專案，詳情可參見：建立MaxCompute專案。

說明

標準模式工作空間，需分別建立開發環境資料來源和生產環境資料來源。工作空間模式，詳情請參見必讀：簡單模式和標準模式的區別。

通過該方式建立資料來源，需擁有MaxCompute的odps:ListProjects許可權，以及目標MaxCompute專案的Super_Administrator許可權。

建立資料來源配置如下。

配置基礎資訊。

參數	說明
資料來源名稱	定義資料來源在DataWorks的名稱，名稱必須唯一。
認證方式	建立的資料來源僅支援通過阿里雲帳號及阿里雲RAM角色進行認證。說明歷史存量使用AccessID及AccessKey建立的資料來源，建議後續修改時通過阿里雲帳號及阿里雲RAM角色身份進行認證。
所屬雲帳號	定義添加哪個帳號下的MaxCompute專案作為當前工作空間的資料來源。當前阿里雲主帳號：添加當前阿里雲主帳號下的MaxCompute專案作為當前工作空間的資料來源。其他阿里雲主帳號：添加其他阿里雲主帳號下的MaxCompute專案作為當前工作空間的資料來源。請根據選擇的帳號類型，參照下文配置其他配置項。
地區	MaxCompute專案所在地區。說明若選擇的MaxCompute專案與當前工作空間不在同一地區，則將MaxCompute專案添加為資料來源後，此類資料來源無法在DataWorks的資料開發（DataStudio）模組綁定，即不支援在資料開發（DataStudio）、營運中心使用，僅用於Data Integration模組進行資料同步。
其他配置（使用當前阿里雲主帳號）	當所屬雲帳號選擇當前阿里雲主帳號時，您需配置如下參數： MaxCompute專案名稱：選擇需將指定地區下哪一個MaxCompute專案添加為當前工作空間的資料來源。說明若無法選擇目標MaxCompute專案，則請授予當前登入帳號該專案的Super_Administrator許可權。授權詳情請參見許可權說明。預設訪問身份：定義在當前工作空間下，用什麼身份訪問該資料來源。開發環境：當前僅支援使用執行者身份訪問。生產環境：支援使用阿里雲主帳號、阿里雲RAM使用者（即子帳號）、阿里雲RAM角色訪問。說明僅阿里雲主帳號及擁有AdministratorAccess角色許可權的使用者或角色可選擇所有身份訪問。設定生產資料來源的預設訪問身份為RAM使用者或角色：如需將預設訪問身份設定為其他阿里雲帳號或角色（即非當前登入帳號的其他身份），需擁有MaxCompute專案的admin或super_administrator許可權，且資料來源建立完成後，該帳號或角色將會被MaxCompute生產專案添加為Role_Project_Scheduler角色。當前工作空間下的生產資料，均歸屬於建立資料來源時所指定的生產環境預設訪問身份。其他帳號如需操作及訪問生產表，需在資訊安全中心申請相關許可權。相關介紹及操作，請參見MaxCompute資料存取權限控制、核准中心概述。
其他配置（使用其他阿里雲主帳號）	當所屬雲帳號選擇其他阿里雲主帳號時，您需配置如下參數：對方阿里雲主帳號UID：需添加的MaxCompute專案所屬的雲帳號UID。對方MaxCompute專案：需將對方帳號下哪一個MaxCompute專案作為當前工作空間的MaxCompute資料來源。對方RAM角色：訪問該MaxCompute專案的RAM角色。該角色需滿足如下條件：對方阿里雲主帳號中已建立RAM角色。對方阿里雲主帳號的RAM角色已授權當前帳號DataWorks服務訪問。所選擇的MaxCompute專案中已添加該角色。說明跨帳號添加資料來源的相關操作，詳情請參見情境：跨帳號建立資料來源。若選擇的MaxCompute專案與DataWorks工作空間不在同一個阿里雲主帳號下，則將MaxCompute專案添加為資料來源後，此類資料來源無法在DataWorks的資料開發（DataStudio）模組綁定，即不支援在資料開發（DataStudio）、營運中心使用，僅用於Data Integration模組進行資料同步。
Endpoint	指定DataWorks通過該資料來源訪問MaxCompute專案的Endpoint地址。包括訪問MaxCompute服務的Endpoint地址，以及上傳、下載本地或雲資料來源資料的Tunnel服務地址。支援以下兩種配置：自動適配：DataWorks根據實際情況自動適配，建議選擇該項。說明若MaxCompute專案與DataWorks服務所在地區不一致，即存在跨地區訪問情境，自動適配情況下，Data Integration預設使用公網訪問地址讀取和下載資料。自訂配置：自訂情況下，您需手動設定MaxCompute Endpoint及Tunnel Endpoint，不同地區，Endpoint不同。詳情請參見Endpoint。

測試資源群組連通性。
根據使用情境不同，資源群組分為Data Integration（用於資料同步）、資料調度（用於任務調度）、資料服務（用於資料服務任務）三種類型。各類資源群組的詳細介紹，請參見DataWorks資源群組概述。
您需根據資料來源後續的用途，在串連配置地區對應資源群組類型後，測試所需資源群組的連通性。若資源群組與資料來源無法連通，則相應資料來源任務將無法正常執行。
說明
資料來源建立成功後平台會進行訪問身份授權，即將訪問身份帳號添加至MaxCompute專案中，並為該身份映射MaxCompute對應的許可權。在授權完成前，連通性測試可能會產生連通無許可權報錯，該情境下，儲存資料來源後，您需稍作等待。

後續操作

為保障您的開發過程更加順暢，建議先閱讀DataWorks On MaxCompute使用說明，瞭解在DataWorks使用MaxCompute的開發流程、相關費用、環境準備、許可權控制等內容。

資料來源建立完成後，您可根據需要執行如下操作：

計算任務開發與調度：
DataWorks的資料開發與營運中心模組，為您提供MaxCompute任務的開發與調度能力，若您需要基於該MaxCompute資料來源進行MaxCompute任務開發，或周期性調度MaxCompute相關任務，需先進入資料開發（DataStudio）頁面，將建立的資料來源綁定至資料開發（DataStudio）。
說明
僅當MaxCompute專案和DataWorks工作空間同地區、同帳號時，基於該專案建立的資料來源才可綁定至資料開發（DataStudio）。
進行資料同步：
DataWorks的Data Integration模組為您提供讀取和寫入資料至MaxCompute的能力，您可將其他資料來源的資料同步至當前MaxCompute資料來源，或將當前MaxCompute資料來源的資料同步至其他資料來源。同時，可根據需要選擇離線同步、即時同步、同步解決方案等情境執行相關資料同步操作。
增刪改查資料來源：進入資料來源管理頁面執行編輯、刪除等管理操作。

常見問題

Q：DataWorks建立MaxCompute資料來源時，生產環境預設訪問身份選擇了阿里雲RAM使用者（即子帳號），如果RAM使用者的AccessKey失效，導致執行任務時報錯Invalid credentials - accessKeyId not found，如何處理？

A：您需要按以下步驟修改預設訪問身份：

重新為RAM使用者建立可用的AccessKey，詳情請參見建立AccessKey。
在MaxCompute控制台，為RAM使用者授權，詳情請參見授權操作。
參考本文建立MaxCompute資料來源步驟，修改MaxCompute資料來源生產環境預設訪問身份為已修改好的RAM使用者。