全部產品
Search
文件中心

DataWorks:建立EMR Trino節點

更新時間:Nov 15, 2024

Trino是一個開源的分布式SQL查詢引擎,適用於多資料來源互動式分析查詢。您可以通過建立EMR(E-MapReduce)Trino節點,完成海量多維資料彙總或報表分析。詳情請參見Trino概述

前提條件

  • 已建立阿里雲EMR叢集,並註冊EMR叢集至DataWorks。

    建立EMR相關節點並開發EMR任務前,您需要先將EMR叢集註冊至DataWorks工作空間,操作詳情請參見註冊EMR叢集至DataWorks

  • (可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員

  • 已購買Serverless資源群組並完成資源群組配置,包括綁定工作空間、網路設定等,詳情請參見新增和使用Serverless資源群組

  • 資料開發(DataStudio)中已建立商務程序。

    資料開發(DataStudio)基於商務程序對不同開發引擎進行具體開發操作,所以您建立節點前需要先建立商務程序,操作詳情請參見建立商務程序

使用限制

  • 僅支援使用Serverless資源群組運行該類型任務。

  • DataLake或自訂叢集若要在DataWorks管理中繼資料,需先在叢集側配置EMR-HOOK。若未配置,則無法在DataWorks中即時展示中繼資料、產生審計日誌、展示血緣關係、開展EMR相關治理任務。配置EMR-HOOK,詳情請參見配置Hive的EMR-HOOK

  • Trino開啟了LDAP認證的情況下,需要登入EMR所在Master機器,下載/etc/taihao-apps/trino-conf目錄中的keystore檔案。登入DataWorks控制台,單擊進入左側導覽列的更多 > 管理中心在下拉框中選擇對應工作空間後單擊進入管理中心,在左側導覽列單擊叢集管理,找到登入的目標EMR叢集,切換至帳號映射頁簽,單擊編輯帳號映射按鈕,進入編輯頁面,單擊上傳keystore檔案按鈕上傳該檔案。

步驟一:建立EMR Trino節點

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 按右鍵目標商務程序,選擇建立節點 > EMR > EMR Trino

  3. 建立節點對話方塊中,輸入名稱,並選擇引擎執行個體節點類型路徑。單擊確認,進入EMR Trino節點編輯頁面。

    說明

    節點名稱支援大小寫字母、中文、數字、底線(_)和小數點(.)。

步驟二:開發EMR Trino任務

雙擊已建立的節點,進入任務開發頁面,執行如下開發操作。

(可選)選擇EMR叢集執行個體

若您的工作空間註冊了多個EMR叢集,則可在節點編輯頁面頂部選擇合適的叢集。若僅註冊了一個EMR叢集,預設使用該叢集進行開發操作。

image

連接器配置

  • 查詢MySQL相關表之前需要完成EMR Trino內建連接器配置,詳情請參見MySQL連接器配置。

  • 查詢Hive相關表之前需要完成EMR Trino內建連接器配置,詳情請參見Hive連接器配置。

  • 查詢其他資料來源相關表資料,內建連接器配置可參見配置連接器

編輯SQL代碼

在SQL編輯地區輸入任務代碼,樣本如下。

-- 使用方法
-- SELECT * FROM <catalog>.<schema>.<table>;
-- 參數說明
-- <catalog>為要串連的資料來源的名稱。
-- <schema>為要使用的資料庫的名稱。
-- <table>為待查詢的資料表。
-- 例如,如果要查看Hive資料來源中預設資料庫中的hive_table表的資料
-- 查Hive表
SELECT * FROM hive.default.hive_table;

-- 例如,如果要查看MySQL資料來源中自建資料庫rt_data庫中的rt_user表的資料 
-- 查MySQL表  
SELECT * FROM mysql.rt_data.rt_user;

-- 聯查Hive和MySQL表
SELECT DISTINCT a.id, a.name,b.rt_name FROM hive.default.hive_table a INNER JOIN mysql.rt_data.rt_user b ON a.id = b.id;

-- 查Hive表,可以結合調度參數使用
SELECT * FROM hive.default.${table_name};
說明

執行SQL任務

  1. 在工具列單擊進階運行表徵圖,在參數對話方塊選擇已建立的調度資源群組,單擊運行

    說明
    • 訪問公用網路或VPC網路環境的資料來源需要使用與資料來源測試連通性成功的調度資源群組。詳情請參見網路連通方案

    • 如果您後續執行任務需要修改使用的資源群組,您可單擊帶參運行進階運行表徵圖,選擇需要更換的調度資源群組。

    • 使用EMR Trino節點查詢資料時,返回的查詢結果最大支援10000條資料,並且資料總量不能超過10M。

  2. 單擊儲存表徵圖,儲存編寫的SQL語句。

(可選)配置進階參數

如您需要調整SQL語句執行方式,可點擊右側導覽列的進階設定進行相應設定。

參數

參數說明

FLOW_SKIP_SQL_ANALYZE

SQL語句執行方式。取值如下:

  • true:表示每次執行多條SQL語句。

  • false(預設值):表示每次執行一條SQL語句。

DATAWORKS_SESSION_DISABLE

適用於開發環境直接測試回合情境。取值如下:

  • true:表示每次運行SQL語句都會建立一個JDBC Connection。

  • false(預設值):表示使用者在一個節點裡運行不同的SQL語句時會複用同一個JDBC Connection。

步驟三:配置任務調度

如您需要周期性執行建立的節點任務,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。配置詳情請參見任務調度屬性配置概述

說明

您需要設定節點的重跑屬性依賴的上遊節點,才可以提交節點。

步驟四:提交發布任務

節點任務配置完成後,需執行提交發佈動作,提交發布後節點即會根據調度配置內容進行周期性運行。

  1. 單擊工具列中的儲存表徵圖,儲存節點。

  2. 單擊工具列中的提交表徵圖,提交節點任務。

    提交時需在提交對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱。

    說明
    • 您需設定節點的重跑屬性依賴的上遊節點,才可提交節點。

    • 程式碼檢閱可對任務的代碼品質進行把控,防止由於任務代碼有誤,未經審核直接發布上線後出現任務報錯。如進行程式碼檢閱,則提交的節點代碼必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱

如您使用的是標準模式的工作空間,任務提交成功後,需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務

後續步驟

任務提交發布後,會基於節點的配置周期性運行,您可單擊節點編輯介面右上方的營運,進入營運中心查看周期任務的調度運行情況。詳情請參見查看並管理周期任務