全部產品
Search
文件中心

DataWorks:準備環境

更新時間:Aug 17, 2024

本教程以使用者Portrait analysis為例,通過使用DataWorks完成資料同步、資料加工、品質監控的全流程操作。為保證您可以順利完成本教程,您需要準備教程所需的EMR叢集、DataWorks工作空間,並做好相關的環境配置。

前提條件

  • 巨量資料開發治理平台DataWorks:購買DataWorks,詳情請參見購買指引

    說明

    因本樣本提供的資料資源都在華東2(上海),建議購買時選擇地區為華東2(上海)。

  • Object Storage Service:已開通OSS服務,具體步驟,請參見開通OSS服務

步驟一:建立OSS Bucket

本教程需要您建立一個OSS Bucket,後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中,用於資料建模和資料分析。

  1. 登入OSS控制台

  2. 在左側導覽列,單擊Bucket列表,在Bucket列表頁面,單擊建立Bucket

  3. 建立Bucket對話方塊中,配置各項參數,單擊完成建立

    • Bucket名稱:自訂。

    • 地區:選擇華東2(上海)

    • HDFS服務:根據介面提示開啟HDFS服務開關。

      更多參數說明請參見控制台建立儲存空間

  4. 在Bucket列表頁單擊相應的Bucket名稱,進入Bucket的檔案管理頁面。

步驟二:建立EMR叢集

本教程需要您建立一個EMR叢集,用於整合到DataWorks,使得您能夠在DataWorks平台上執行基於EMR叢集的資料處理任務。

具體操作,請參見建立叢集。在建立EMR叢集進行軟體配置時,關鍵參數配置如下:

  • 地區:選擇華東2(上海)

  • 業務情境:選擇新版資料湖

  • 產品版本:選擇最新版本。

  • 可選服務:根據實際需求選擇組件,其中Hive組件在本案例中必選。

  • 中繼資料:選擇DLF統一中繼資料

  • 叢集儲存根路徑:選擇步驟一中建立的已開通HDFS服務的OSS Bucket。

說明

對於EMR叢集的不同配置,DataWorks產品支援情況存在一定差異。如果您需要在DataWorks上進行EMR任務開發,建議您在建立EMR叢集前先參考DataWorks on EMR叢集配置最佳實務

步驟三:建立DataWorks工作空間

在DataWorks工作空間裡進行任務開發前您需要先建立一個DataWorks工作空間。

說明

因本樣本提供的資料資源都在華東2(上海),建議您將工作空間建立在華東2(上海),以避免工作空間建立在其它地區,添加資料來源時出現網路不可達的情況。為了簡化您的操作流程,建議您在生產、環境是否隔離這一參數處選擇

  1. 登入DataWorks控制台

  2. 單擊左側導覽列中的工作空間列表

  3. 將頁面頂部導覽列的地區列表切換為華東2(上海)地區。

  4. 單擊建立工作空間,輸入工作空間名稱。具體操作,請參見建立工作空間

步驟四:配置DataWorks on EMR開發環境

在DataWorks上運行EMR作業前,您需要配置如下開發環境:

  1. 購買並配置Serverless資源群組。

    Serverless資源群組是一種專門的計算資源,用於保障任務能夠按時被調度執行。購買一個Serverless資源群組,並與當前EMR叢集所在的VPC網路連通,詳情請參見新增和使用Serverless資源群組

  2. (可選)添加工作空間成員並授權。

    只有工作空間成員才可以在DataStudio內運行EMR任務。您可以將其他RAM使用者添加為工作空間成員,詳情請參見空間級模組許可權管控

    說明

    阿里雲主帳號和建立工作空間的RAM使用者自動成為工作空間的成員,且角色為空白間管理員。

  3. 註冊EMR叢集至DataWorks並初始化資源群組。

    只有將叢集註冊至DataWorks,才可以在DataWorks上使用EMR叢集。詳情請參見註冊EMR叢集至DataWorks

    重要

    初始化資源群組時,請務必確保初始化成功,否則可能導致任務運行失敗。如果初始化失敗,請根據介面提示查看失敗原因並進行連通性診斷。

    關鍵參數配置如下:

    • 叢集所屬雲帳號:選擇當前阿里雲主帳號

    • 叢集類型:選擇資料湖(DataLake)

    • 預設訪問身份:選擇叢集帳號:hadoop