本教程以使用者Portrait analysis為例,通過使用DataWorks完成資料同步、資料加工、品質監控的全流程操作。為保證您可以順利完成本教程,您需要準備教程所需的EMR叢集、DataWorks工作空間,並做好相關的環境配置。
前提條件
步驟一:建立OSS Bucket
本教程需要您建立一個OSS Bucket,後續會將使用者資訊和網站訪問日誌資訊同步到OSS Bucket中,用於資料建模和資料分析。
步驟二:建立EMR叢集
本教程需要您建立一個EMR叢集,用於整合到DataWorks,使得您能夠在DataWorks平台上執行基於EMR叢集的資料處理任務。
具體操作,請參見建立叢集。在建立EMR叢集進行軟體配置時,關鍵參數配置如下:
地區:選擇華東2(上海)。
業務情境:選擇新版資料湖。
產品版本:選擇最新版本。
可選服務:根據實際需求選擇組件,其中Hive組件在本案例中必選。
中繼資料:選擇DLF統一中繼資料。
叢集儲存根路徑:選擇步驟一中建立的已開通HDFS服務的OSS Bucket。
對於EMR叢集的不同配置,DataWorks產品支援情況存在一定差異。如果您需要在DataWorks上進行EMR任務開發,建議您在建立EMR叢集前先參考DataWorks on EMR叢集配置最佳實務。
步驟三:建立DataWorks工作空間
在DataWorks工作空間裡進行任務開發前您需要先建立一個DataWorks工作空間。
因本樣本提供的資料資源都在華東2(上海),建議您將工作空間建立在華東2(上海),以避免工作空間建立在其它地區,添加資料來源時出現網路不可達的情況。為了簡化您的操作流程,建議您在生產、環境是否隔離這一參數處選擇否。
登入DataWorks控制台。
單擊左側導覽列中的工作空間列表。
將頁面頂部導覽列的地區列表切換為華東2(上海)地區。
單擊建立工作空間,輸入工作空間名稱。具體操作,請參見建立工作空間。
步驟四:配置DataWorks on EMR開發環境
在DataWorks上運行EMR作業前,您需要配置如下開發環境:
購買並配置Serverless資源群組。
Serverless資源群組是一種專門的計算資源,用於保障任務能夠按時被調度執行。購買一個Serverless資源群組,並與當前EMR叢集所在的VPC網路連通,詳情請參見新增和使用Serverless資源群組。
(可選)添加工作空間成員並授權。
只有工作空間成員才可以在DataStudio內運行EMR任務。您可以將其他RAM使用者添加為工作空間成員,詳情請參見空間級模組許可權管控。
說明阿里雲主帳號和建立工作空間的RAM使用者自動成為工作空間的成員,且角色為空白間管理員。
註冊EMR叢集至DataWorks並初始化資源群組。
只有將叢集註冊至DataWorks,才可以在DataWorks上使用EMR叢集。詳情請參見註冊EMR叢集至DataWorks。
重要初始化資源群組時,請務必確保初始化成功,否則可能導致任務運行失敗。如果初始化失敗,請根據介面提示查看失敗原因並進行連通性診斷。
關鍵參數配置如下:
叢集所屬雲帳號:選擇當前阿里雲主帳號。
叢集類型:選擇資料湖(DataLake)。
預設訪問身份:選擇叢集帳號:hadoop。