全部產品
Search
文件中心

DataWorks:綁定計算資源(參加新版資料開發公測)

更新時間:Dec 24, 2024

如果您在建立工作空間時選擇了參加資料開發(Data Studio)(新版)公測,則還需為該工作空間建立計算資源,綁定計算資源後,即可在工作空間開發和調度計算資源的相關任務。

前提條件

  • 已建立工作空間,並且建立工作空間時選中了參加資料開發(Data Studio)(新版)公測,詳情請參見建立工作空間

    您可以在工作空間列表頁,找到目標工作空間,單擊操作列的快速進入,區分是否參加了新版資料開發公測:

    未參加新版資料開發公測

    參加建立資料開發公測

    單擊操作列的快速進入,選擇資料開發,進入資料開發頁面。

    未參加新版資料開發公測時,資料開發介面如下:

    image

    DataStudio(資料開發)的更多資訊,請參見資料開發(DataStudio)

    單擊操作列的快速進入,選擇資料開發(新版),進入資料開發頁面。

    參加新版資料開發公測時,資料開發介面如下:

    image

    新版資料開發Data Studio的更多資訊,請參見Data Studio概述

  • 已具備相關的計算資源服務,DataWorks綁定計算資源僅是將您已有的計算資源關聯至DataWorks,計算資源的儲存、資料以及計費均歸屬於對應計算資源。

  • 開通DataWorks服務時,已自動購買了隨用隨付的Serverless資源群組(不使用不計費),並綁定至預設工作空間,如您在新工作空間完成本文操作,則請將資源群組綁定至新工作空間,具體操作,請參見為工作空間綁定資源群組

  • 綁定的計算資源,需確保與Serverless資源群組的連通性,詳情請參見網路連通方案

相關概念

計算資源

計算資源是計算引擎用於執行資料處理和分析任務的資源執行個體,如MaxCompute專案(Quota組)、Hologres執行個體等。例如,在巨量資料處理情境下,使用阿里雲MaxCompute時,您可以通過設定Quota組來管理您的計算任務所使用的計算資源量。

一個工作空間支援添加多種計算資源。為工作空間綁定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce、CDH、OpenSearch、Serverless Spark、Serverless StarRocks和全託管 Flink後,即可在工作空間開發和調度計算資源的相關任務。

資料來源

資料來源用於串連不同的資料存放區服務,它包含了串連到該資料庫所需的所有資訊(如使用者名稱、密碼、主機地址等)。在資料開發前,您需要先定義好資料來源資訊,以便在執行節點任務時,能夠通過選擇資料來源名稱來確定資料讀取和寫入的資料庫。一個工作空間支援添加多種資料來源執行個體。

資料目錄

資料目錄是一個結構化的列表或地圖,用來展示一個組織內部所有的資料資產,包括但不限於資料庫、表、檔案等。對於DataWorks這樣的平台而言,資料目錄記錄了關於這些資料資產的中繼資料資訊。

計算資源、資料來源、資料目錄之間的關係

三者是獨立的對象,但存在關聯關係,具體關係如下:

  • 綁定計算資源時,可關聯建立出資料來源和資料目錄。

  • 建立資料來源時,可關聯建立出資料目錄。

  • 建立資料目錄時,無法關聯建立出資料來源或計算資源。

綁定計算資源

DataWorks支援多種方式為工作空間綁定計算資源,您可選擇其一建立即可。

建立工作空間時綁定計算資源

完成建立工作空間相關參數配置後,單擊建立工作空間,將自動進入綁定計算資源步驟,您可以按需選擇您的計算資源,完成綁定操作。

image

DataWorks在選擇參與新版資料開發公測後,進入綁定計算資源引導時,支援綁定多種計算資源,具體綁定說明如下:

分類

計算資源

綁定說明

綁定計算資源參數說明

離線計算

MaxCompute

DataWorks無法直連到MaxCompute的Quota上,只能綁定到MaxCompute專案上。綁定MaxCompute計算資源後,會同步建立MaxCompute的資料來源、綁定MaxCompute資料目錄。

MaxCompute

Serverless Spark

綁定Spark工作空間。Spark計算資源無需綁定資料目錄。

Serverless Spark

即時查詢

Hologres

DataWorks無法直連到Hologres的計算群組,需要綁定到Hologres的Database上。綁定Hologres計算資源後,會同步建立Hologres資料來源、綁定Hologres資料目錄。

Hologres

Serverless StarRocks

DataWorks無法直連到StarRocks的隊列,需要綁定到StarRocks的執行個體(Instance)。綁定StarRocks計算資源,會同步建立StarRocks的資料來源、綁定StarRocks的資料目錄。

Serverless StarRocks

全託管

全託管Flink

綁定Flink專案空間。Flink計算資源無需綁定資料目錄。

全託管Flink

多模態搜尋

OpenSearch

綁定OpenSearch執行個體。綁定OpenSearch計算資源後,會同步建立OpenSearch資料來源。該計算資源無需綁定資料目錄。

OpenSearch

工作空間詳情頁綁定計算資源

如果您在建立工作空間時未立即綁定計算資源,您還可以在工作空間詳情頁為工作空間綁定計算資源。

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的工作空間,進入工作空間列表頁面。

  2. 找到已建立的工作空間,單擊操作列的詳情,進入工作空間詳情頁。

  3. 在左側導覽列選擇計算資源,單擊綁定計算資源,您可以按需選擇您的計算資源,然後配置相關參數,參數詳情請參見綁定計算資源參考,完成後續綁定操作。

    image

  4. 配置完成後,單擊確認按鈕儲存計算資源。

管理中心綁定計算資源

如果您在建立工作空間時未立即綁定計算資源,您還可以在管理中心為工作空間綁定計算資源。

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  2. 在左側導覽列單擊計算資源

  3. 在計算資源頁面,單擊綁定計算資源,選擇需要綁定的計算資源類型,然後配置相關參數,參數詳情可參見:綁定計算資源參考

    image

Data Studio頁面綁定計算資源

  1. 進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到已建立的工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

  2. 單擊左側image按鈕,選擇進入計算資源管理頁面。

    image

  3. 在計算資源管理頁面,單擊綁定計算資源,選擇需要綁定的計算資源類型,然後配置相關參數,參數詳情可參見:綁定計算資源參考

    image

綁定計算資源參考

MaxCompute

  1. 選擇MaxCompute,進入綁定MaxCompute計算資源配置頁面,MaxCompute詳情可參見:什麼是MaxCompute

  2. 配置如下參數。

    參數

    說明

    MaxCompute專案

    選擇需要綁定的MaxCompute專案,您也可以在下拉式功能表中單擊建立,直接建立MaxCompute專案後,選擇新建立的MaxCompute專案。

    說明
    • 如果在建立工作空間時選擇了隔離生產、開發環境,則此處需要分別為生產和開發環境選擇MaxCompute專案,生產和開發環境不支援選擇相同的MaxCompute專案。

    • MaxCompute計算資源計費詳情,請參見計費項目與計費方式

    • MaxCompute專案建立詳情,請參見建立MaxCompute專案

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該MaxCompute專案。

    • 開發環境:當前僅支援使用執行者身份訪問。

    • 生產環境:支援使用阿里雲主帳號阿里雲RAM子帳號阿里雲RAM角色訪問

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連MaxCompute計算引擎的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成MaxCompute計算資源配置。

    說明
    • 綁定MaxCompute計算資源後,會同步建立MaxCompute的資料來源、綁定MaxCompute資料目錄。

    • 您也可以完成MaxCompute計算資源綁定後,在資料目錄中查看詳情,具體請參見查看資料目錄

Serverless Spark

  1. 選擇Serverless Spark,進入綁定Serverless Spark計算資源的配置頁面,Serverless Spark詳情可參見:什麼是EMR Serverless Spark

  2. 配置如下參數:

    參數

    說明

    Spark工作空間

    選擇需要綁定的Spark工作空間,您也可以在下拉式功能表中單擊建立,前往EMR Serverless Spark控制台進行建立,然後再回到DataWorks空間中選擇新建立的Spark工作空間。

    說明
    • 如果在建立工作空間時選擇了隔離生產、開發環境,則此處需要分別為生產和開發環境選擇Spark工作空間。

    • 如何建立Spark工作空間,請參見建立Spark工作空間

    角色授權

    為了DataWorks能夠正常擷取EMR Serverless Spark叢集的資訊,首次選擇Spark工作空間後,請單擊添加服務關聯角色作為工作空間管理員

    重要

    建立服務關聯角色後,請勿在E-MapReduce Serverless Spark工作空間中移除DataWorks服務關聯角色AliyunServiceRoleForDataWorksOnEmrAliyunServiceRoleForDataworksEngine的管理員角色。

    預設引擎版本

    在Data Studio中建立EMR Spark任務時,將會預設使用此處配置的引擎版本、訊息佇列和SQL Compute。如需面向不同任務設定不同的引擎版本、資源隊列或SQL Compute,請在Spark任務編輯視窗的進階設定中進行定義。

    預設訊息佇列

    預設SQL Compute

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該資料來源。

    • 開發環境:當前僅支援使用執行者身份訪問。

    • 生產環境:支援使用阿里雲主帳號阿里雲RAM子帳號任務責任人

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

  3. 單擊確認,完成Serverless Spark計算資源配置。

    說明

    Spark無需綁定資料目錄。

Hologres

  1. 選擇Hologres,進入綁定Hologres計算資源的配置頁面,Hologres詳情可參見什麼是即時數倉Hologres

  2. 配置如下參數:

    參數

    說明

    Hologres執行個體

    選擇需要綁定的Hologres執行個體,您也可以在下拉式功能表中單擊建立,前往Hologres購買頁建立,然後再回到DataWorks空間中選擇新建立的Hologres執行個體。

    說明
    • 如果在建立工作空間時選擇了隔離生產、開發環境,則此處需要分別為生產和開發環境選擇Hologres執行個體。

    • 如何建立Hologres執行個體,請參見購買Hologres

    Hologres計算群組

    當前Hologres執行個體支援配置計算群組,需要為其設定計算群組執行個體,詳情可以參考計算群組管理

    資料庫名稱

    選擇Hologres執行個體中的資料庫,如果未建立資料庫,您也可以在下拉式功能表中單擊建立。Hologres建立資料庫相關參數解釋,請參見建立資料庫

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該資料來源。

    • 開發環境:當前僅支援使用執行者身份訪問。

    • 生產環境:支援使用阿里雲主帳號阿里雲RAM子帳號阿里雲RAM角色訪問

    認證選項

    是否為Hologres執行個體配置了SSL認證,如果配置了SSL認證,還需配置SSL加密模式。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連Hologres執行個體的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成Hologres計算資源配置。

    說明

    綁定Hologres計算資源後,會同步建立Hologres的資料來源、綁定Hologres資料目錄。。

Serverless StarRocks

  1. 選擇Serverless StarRocks,進入綁定Serverless StarRocks計算資源的配置頁面,Serverless StarRocks詳情可參見:什麼是EMR Serverless StarRocks

  2. 配置如下參數:

    參數

    說明

    StarRocks執行個體

    選擇需要綁定的StarRocks執行個體,您也可以在下拉式功能表中單擊建立,前往EMR StarRocks控制台建立,然後再回到DataWorks空間中選擇新建立的StarRocks執行個體。

    說明

    資料庫名稱

    選擇StarRocks執行個體中的資料庫。如果未建立資料庫,您需要先在StarRocks執行個體中建立資料庫。

    使用者名稱

    密碼

    建立StarRock執行個體時設定的帳號和密碼,帳號預設為admin

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連StarRocks執行個體的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成Serverless StarRocks計算資源配置。

    說明
    • 綁定StarRock計算資源後,會同步建立StarRock資料來源、綁定StarRock資料目錄。

    • 您也可以在建立完成後,在資料目錄中查看詳情,具體請參見查看資料目錄

全託管Flink

  1. 選擇全託管Flink,進入綁定全託管Flink計算資源的配置頁面,全託管Flink詳情可參見:什麼是阿里雲Realtime ComputeFlink版

  2. 配置如下參數:

    參數

    說明

    Flink工作空間

    選擇需要綁定的Flink工作空間,您也可以在下拉式功能表中單擊建立,前往全託管Flink購買頁建立,然後再回到DataWorks空間中選擇新建立的Flink工作空間。

    說明

    Flink專案空間

    選擇Flink工作空間內的專案空間,工作空間建立完成會建立預設專案空間,您也可以在Flink控制台手動添加其他專案空間後,再在此處選擇。建立Flink專案空間,詳情可參見:管理專案空間

    預設部署目標

    選擇預設部署目標,在Data Studio中建立Flink任務時,將會預設使用此處配置的部署目標。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

  3. 單擊確認,完成全託管Flink計算資源配置。

    說明

    Flink無需綁定資料目錄。

OpenSearch

  1. 選擇OpenSearch,進入綁定OpenSearch計算資源的配置頁面,詳情請參見:什麼是智能OpenSearchOpenSearch

  2. 配置如下參數。

    參數

    說明

    OpenSearch執行個體

    選擇需要綁定的OpenSearch執行個體,您也可以在下拉式功能表中單擊建立,前往OpenSearch購買頁建立,然後再回到DataWorks空間中選擇新建立的OpenSearch執行個體。

    說明

    使用者名稱

    密碼

    填寫建立OpenSearch執行個體時設定的使用者名稱和密碼。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

  3. 單擊確認,完成OpenSearch計算資源配置。

    說明

    OpenSearch無需綁定資料目錄。

AnalyticDB for MySQL (V3.0)

  1. 選擇AnalyticDB for MySQL (V3.0),進入綁定AnalyticDB for MySQL (V3.0)計算資源的配置頁面,關於AnalyticDB for MySQL (V3.0)詳情請參見:什麼是雲原生資料倉儲AnalyticDB MySQL版

  2. 配置如下參數:

    參數

    說明

    配置模式

    僅支援阿里雲執行個體模式。

    所屬雲帳號

    僅支援當前阿里雲帳號。

    地區

    AnalyticDB for MySQL (V3.0)執行個體所在地區。

    說明

    若選擇的地區與當前工作空間地區不一致,則綁定計算資源後,系統將自動建立對應資料來源,該資料來源不支援在資料開發(Data Studio)中使用,即此類資料來源不能用於資料開發或周期性調度任務,僅可用於Data Integration模組進行資料同步。

    執行個體

    選擇需要綁定該工作空間的執行個體。

    說明

    如果在建立工作空間時選擇了隔離生產、開發環境,則此處需要分別為生產和開發環境選擇不同的執行個體或資料庫。

    資料庫名稱

    填寫AnalyticDB for MySQL (V3.0)執行個體中建立的資料庫名稱,詳情可參見:建立資料庫

    使用者名稱

    填寫擁有資料庫許可權的使用者名稱。

    密碼

    填寫使用者名稱密碼。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連AnalyticDB for MySQL (V3.0)計算引擎的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成AnalyticDB for MySQL (V3.0)計算資源配置。

AnalyticDB for PostgreSQL

  1. 選擇AnalyticDB for PostgreSQL ,進入綁定AnalyticDB for PostgreSQL計算資源的配置頁面,AnalyticDB for PostgreSQL詳情請參見AnalyticDB for PostgreSQL產品概述

  2. 配置如下參數:

    參數

    說明

    配置模式

    僅支援阿里雲執行個體模式。

    所屬雲帳號

    僅支援當前阿里雲帳號。

    地區

    AnalyticDB for PostgreSQL執行個體所在地區。

    說明

    若選擇的地區與當前工作空間地區不一致,則綁定計算資源後,系統將自動建立對應資料來源,該資料來源不支援在資料開發(Data Studio)中使用,即不能用於資料開發或周期性調度任務,僅可用於Data Integration模組進行資料同步。

    執行個體

    選擇需要綁定該工作空間的執行個體。

    資料庫名稱

    填寫AnalyticDB for PostgreSQL執行個體中建立的資料庫名稱,詳情請參見:資料庫管理

    使用者名稱

    填寫擁有資料庫許可權的使用者名稱。

    密碼

    填寫使用者名稱密碼。

    認證選項

    是否為AnalyticDB for PostgreSQL執行個體配置了SSL認證,如果配置了SSL認證,還需傳入Trusctore認證檔案。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連AnalyticDB for PostgreSQL計算引擎的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成AnalyticDB for PostgreSQL計算資源配置。

AnalyticDB for Spark

說明

註冊AnalyticDB for Spark所使用的阿里雲執行個體為AnalyticDB for MySQL 企業版執行個體,詳情可參見:Spark計算引擎

  1. 選擇AnalyticDB for Spark,進入綁定AnalyticDB for Spark計算資源的配置頁面。

  2. 配置如下參數:

    參數

    說明

    配置模式

    僅支援阿里雲執行個體模式。

    所屬雲帳號

    僅支援當前阿里雲帳號。

    地區

    AnalyticDB for MySQL執行個體所在地區。

    說明

    若選擇的地區與當前工作空間地區不一致,則建立資料來源後,該資料來源不支援在資料開發(Data Studio)中使用,即不能用於資料開發或周期性調度任務,僅可用於Data Integration模組進行資料同步。

    執行個體

    選擇需要綁定該工作空間的執行個體。

    資料庫名稱

    填寫AnalyticDB for MySQL執行個體中建立的資料庫名稱,詳情可參見:建立資料庫

    預設訪問身份

    預設任務責任人

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連AnalyticDB for Spark計算引擎的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成AnalyticDB for Spark計算資源配置。

CDH

  1. 選擇CDH ,進入綁定CDH計算資源的配置頁面。

  2. 配置如下參數:

    • CDH叢集的基本資料

      參數

      說明

      叢集版本

      選擇關聯的叢集版本。

      DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接選擇,該類叢集版本配套的組件版本固定。若該類叢集版本不滿足您的業務需要,您可選擇自訂版本,並按需配置組件版本。

      叢集名稱

      用於確定當前所關聯集群的配置資訊來源。可選擇其他工作空間登入的叢集或建立叢集:

      • 登入叢集:當前所註冊叢集的配置資訊,直接引用其他工作空間登入叢集的配置資訊。

      • 建立叢集:當前註冊叢集的配置資訊需您自行配置。

      計算資源執行個體名

      用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    • CDH配置句群連結資訊

      參數

      說明

      Hive串連資訊

      按照叢集版本選擇叢集Hive版本,並填寫HiveServer2的JDBC地址以及Metastore地址。

      Impala串連資訊

      按照叢集版本選擇叢集Impala版本,並填寫Impala的JDBC地址。

      Spark串連資訊

      按照叢集版本選擇叢集Spark版本。

      Yarn串連資訊

      按照叢集版本選擇叢集Yarn版本,並填寫Yarn.resourcemanager.address地址以及jobhistory.webapp.address地址。

      MapReduce串連資訊

      按照叢集版本選擇叢集MapReduce版本。

      Presto

      按照叢集版本選擇叢集Presto版本,並填寫JDBC地址。

    • CDH添加叢集設定檔

      設定檔

      描述

      應用情境

      Core-Site檔案

      包含Hadoop Core庫的全域配置。例如,HDFS和MapReduce常用的I/O設定。

      運行Spark或MapReduce任務,需上傳該檔案。

      Hdfs-Site檔案

      包含HDFS的相關配置。例如,資料區塊大小、備份數量、路徑名稱等。

      Mapred-Site檔案

      用於配置MapReduce相關的參數。例如,配置MapReduce作業的執行方式和調度行為。

      運行MapReduce任務,需上傳該檔案。

      Yarn-Site檔案

      包含了與YARN守護進程相關的所有配置。例如,資源管理員、節點管理器和應用程式運行時的環境配置。

      運行Spark或MapReduce任務,或帳號映射類型選擇Kerberos時,需上傳該檔案。

      Hive-Site檔案

      包含了用於配置Hive的各項參數。例如,資料庫連接資訊、Hive Metastore的設定和執行引擎等。

      帳號映射類型選擇Kerberos時,需上傳該檔案。

      Spark-Defaults檔案

      用於指定Spark作業執行時應用的預設配置。您可通過spark-defaults.conf檔案預先設定一系列參數(例如,記憶體大小、CPU核心數),Spark應用程式在運行時將採用該參數配置。

      運行Spark任務,需上傳該檔案。

      Config.Properties檔案

      包含Presto伺服器的相關配置。例如,設定Presto叢集中協調器節點和工作節點的全域屬性。

      使用Presto組件,且帳號映射類型選擇OPEN LDAP或Kerberos時,需上傳該檔案。

      Presto.Jks檔案

      用於儲存安全性憑證,包括私密金鑰和頒發給應用程式的密鑰憑證。在Presto資料庫查詢引擎中,presto.jks檔案用於為Presto進程啟用SSL/TLS加密通訊,確保資料轉送的安全。

  3. 單擊確認,完成CDH計算資源配置。

ClikcHouse

  1. 選擇ClickHouse ,進入綁定ClickHouse計算資源的配置頁面。

  2. 配置如下參數:

    配置

    說明

    配置模式

    目前支援通過串連串模式增ClickHouse叢集。

    JDBC URL

    串連ClickHouse的JDBC URL資訊。您可登入雲資料庫ClickHouse控制台,擷取相關資料庫及連接埠資訊。

    使用者名稱

    訪問ClickHouse叢集的使用者名稱。

    密碼

    訪問ClickHouse叢集的使用者密碼。

    認證選項

    選擇後續訪問ClickHouse叢集時是否需要SSL認證。開啟該認證服務後,ClickHouse資料來源不支援用於資料開發或周期性調度任務。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    串連配置

    串連ClickHouse計算引擎的資源群組,可在此處測試連通性。如當前工作空間暫無已綁定的資源群組,可暫不測試連通性。

    說明

    如無可用的資源群組,您可以建立資源群組並綁定工作空間之後,再到工作空間的詳情中測試與計算資源的連通性。具體請參見新增和使用Serverless資源群組

  3. 單擊確認,完成ClickHouse計算資源配置。

EMR

  1. 選擇EMR ,進入綁定EMR計算資源的配置頁面,EMR詳情請參見:什麼是EMR on ECS

  2. 配置如下參數:

    當前阿里雲主帳號

    當叢集所屬雲帳號選擇當前阿里雲主帳號時,您還需要配置如下參數:

    配置項

    說明

    叢集類型

    選擇需要綁定的EMR叢集類型。目前DataWorks可註冊的叢集類型請參見使用限制

    叢集

    選擇當前帳號下需要綁定至DataWorks的EMR叢集。

    說明

    若叢集類型選擇Spark,您需按照介面指引及參考說明選擇相應的E-MapReduce工作空間(即要註冊的叢集)、預設引擎版本、預設資源隊列等資訊。

    預設訪問身份

    定義在當前工作空間下,使用什麼身份訪問該EMR叢集。

    • 開發環境:可選擇使用叢集帳號hadoop,或任務執行者所映射的叢集帳號。

    • 生產環境:可選擇使用叢集帳號hadoop,任務責任人、阿里雲主帳號或阿里雲子帳號所映射的叢集帳號。

    說明

    當預設訪問身份選擇任務責任人、阿里雲主帳號或阿里雲子帳號所映射的叢集帳號時,您可以參考設定叢集身份映射手動設定DataWorks租戶成員與EMR叢集指定帳號的映射關係。通過該映射的叢集帳號在DataWorks執行EMR任務,未配置DataWorks租戶成員與叢集帳號映射的情況下,DataWorks處理策略如下:

    • 若使用RAM使用者(子帳號)執行任務:我們將預設按照與當前操作人同名的EMR叢集系統帳號執行任務。若叢集開啟LDAP或者Kerberos認證,任務執行將失敗。

    • 若使用阿里雲主帳號執行任務:DataWorks任務執行將報錯。

    傳遞Proxy User資訊

    用於配置是否傳遞Proxy User資訊。

    說明

    當開啟LDAP/Kerberos等認證方式時,叢集會為每個普通使用者頒發一個認證憑證,該操作比較麻煩。為方便統一系統管理使用者許可權,您可通過某個超級使用者(Real User)代理普通使用者(Proxy User)進行許可權認證,此時,通過Proxy User訪問叢集時,實際使用的是超級使用者的身份認證資訊。您只需將使用者添加為Proxy User即可。

    • 傳遞:在EMR叢集中運行任務時,根據Proxy User進行資料存取權限的校正及控制。

      • DataStudio(資料開發)、資料分析:將動態傳遞任務執行者的阿里雲帳號名稱,即Proxy User資訊,作為任務執行者的資訊。

      • 營運中心:將固定傳遞註冊叢集時配置的預設訪問身份的阿里雲帳號名稱,即Proxy User資訊作為預設訪問身份的資訊。

    • 不傳遞:在EMR叢集中運行任務時,根據註冊叢集時配置的帳號認證方式進行資料存取權限的校正及控制。

    不同類型的EMR任務,傳遞Proxy User資訊的方式如下:

    • EMR Kyuubi任務:通過hive.server2.proxy.user配置項傳遞。

    • EMR Spark任務及非JDBC模式的EMR Spark SQL任務:通過-proxy-user配置項傳遞。

    設定檔

    當叢集類型選擇HADOOP時,您可以前往EMR控制台擷取設定檔。詳情請參見匯出和匯入服務配置。匯出後請根據產品介面要上傳的設定檔,修改檔案名稱。

    此外,您還可以登入EMR叢集,通過以下路徑擷取相關設定檔。

    /etc/ecm/hadoop-conf/core-site.xml
    /etc/ecm/hadoop-conf/hdfs-site.xml
    /etc/ecm/hadoop-conf/mapred-site.xml
    /etc/ecm/hadoop-conf/yarn-site.xml
    /etc/ecm/hive-conf/hive-site.xml
    /etc/ecm/spark-conf/spark-defaults.conf
    /etc/ecm/spark-conf/spark-env.sh

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

    其他阿里雲主帳號

    當叢集所屬雲帳號選擇其他阿里雲主帳號時,您還需要配置如下參數:

    配置項

    說明

    對方阿里雲主帳號UID

    需添加的EMR叢集所屬的雲帳號UID。

    對方RAM角色

    訪問該EMR叢集的RAM角色。該角色需滿足如下條件:

    • 對方阿里雲主帳號中已建立RAM角色。

    • 對方阿里雲主帳號的RAM角色已授權訪問當前帳號的DataWorks服務。

    對方EMR叢集類型

    選擇需要綁定的EMR叢集類型。目前跨帳號註冊EMR叢集情境下僅支援EMR on ECS:DataLake叢集EMR on ECS:Hadoop叢集EMR on ECS:自訂叢集

    對方EMR叢集

    選擇該帳號下需要註冊至DataWorks的EMR叢集。

    設定檔

    請在產品介面按照提示配置各項設定檔。擷取設定檔詳情請參見匯出和匯入服務配置。匯出後請根據產品介面要上傳的設定檔,修改檔案名稱。

    image.png

    此外,您還可以登入EMR叢集,通過以下路徑擷取相關設定檔。

    /etc/ecm/hadoop-conf/core-site.xml
    /etc/ecm/hadoop-conf/hdfs-site.xml
    /etc/ecm/hadoop-conf/mapred-site.xml
    /etc/ecm/hadoop-conf/yarn-site.xml
    /etc/ecm/hive-conf/hive-site.xml
    /etc/ecm/spark-conf/spark-defaults.conf
    /etc/ecm/spark-conf/spark-env.sh

    預設訪問身份

    定義在當前工作空間下,用什麼身份訪問該EMR叢集。

    • 開發環境:可選擇統一使用叢集帳號:hadoop,或任務責任人所映射的叢集帳號。

    • 生產環境:可選擇統一使用叢集帳號:hadoop、任務責任人、阿里雲主帳號或阿里雲子帳號所映射的叢集帳號。

    說明

    當預設訪問身份選擇任務責任人、阿里雲主帳號或阿里雲子帳號所映射的叢集帳號時,您可以參考設定叢集身份映射手動設定DataWorks租戶成員與EMR叢集指定帳號的映射關係。通過該映射的叢集帳號在DataWorks執行EMR任務,未配置DataWorks租戶成員與叢集帳號映射的情況下,DataWorks處理策略如下:

    • 若使用RAM使用者(子帳號)執行任務:我們將預設按照與當前操作人同名的EMR叢集系統帳號執行任務。若叢集開啟LDAP或者Kerberos認證,任務執行將失敗。

    • 若使用阿里雲主帳號執行任務:DataWorks任務執行將報錯。

    傳遞Proxy User資訊

    用於配置是否傳遞Proxy User資訊。

    說明

    當開啟LDAP/Kerberos等認證方式時,叢集會為每個普通使用者都頒發一個認證憑證,該操作比較麻煩。為方便統一系統管理使用者許可權,您可通過某個超級使用者(Real User)去代理普通使用者(Proxy User)進行許可權認證,此時,通過Proxy User訪問叢集時,實際使用的是超級使用者的身份認證資訊。您只需添加使用者為Proxy User即可。

    • 傳遞:在EMR叢集中運行任務時,根據Proxy User進行資料存取權限的校正及控制。

      • DataStudio(資料開發)、資料分析:將動態傳遞任務執行者的阿里雲帳號名稱,即Proxy User資訊作為任務執行者的資訊。

      • 營運中心:將固定傳遞註冊叢集時配置的預設訪問身份的阿里雲帳號名稱,即Proxy User資訊為預設訪問身份的資訊。

    • 不傳遞:在EMR叢集中運行任務時,根據註冊叢集時配置的帳號認證方式進行資料存取權限的校正及控制。

    不同類型的EMR任務,傳遞Proxy User資訊的方式如下:

    • EMR Kyuubi任務:通過hive.server2.proxy.user配置項傳遞。

    • EMR Spark任務及非JDBC模式的EMR Spark SQL任務:通過-proxy-user配置項傳遞。

    計算資源執行個體名

    用於標識該計算資源,在任務運行時,通過計算資源執行個體名稱來選擇任務啟動並執行計算資源。

  3. 單擊確認,完成EMR計算資源配置。

後續步驟