ClickHouse SQL可實現分布式SQL查詢及處理結構化資料,提高作業的執行效率。DataWorks的ClickHouse SQL節點可進行ClickHouse SQL任務的開發和周期性調度,以及與其他作業的整合操作。本文為您介紹使用ClickHouse SQL節點進行任務開發的主要流程。
前提條件
已建立商務程序。
資料開發(DataStudio)基於商務程序執行不同引擎的具體開發操作,因此,建立節點前需先建立商務程序,操作詳情請參見建立商務程序。
已建立EMR ClickHouse或資料庫ClickHouse叢集,且完成相關準備工作。
EMR引擎類型包括新版資料湖(DataLake)及Hadoop,不同類型引擎建立節點前需執行的準備工作不同。您可根據實際情況完成EMR側及DataWorks側的準備工作。
DataLake:詳情請參見DataLake叢集配置、DataWorks配置。
Hadoop:Hadoop叢集開發前準備工作。
已建立ClickHouse資料來源並綁定至工作空間。
您需先將您的ClickHouse資料庫建立為DataWorks的ClickHouse資料來源並綁定至資料開發(DataStudio),才可通過ClickHouse資料來源訪問ClickHouse資料,進行後續的開發操作。詳情請參見建立ClickHouse資料來源、開發前準備:綁定資料來源或叢集。
已購買Serverless資源群組,並且Serverless資源群組綁定ClickHouse叢集所在的VPC專用網路,詳情請參見新增和使用Serverless資源群組。
說明支援Serverless資源群組(推薦)或舊版獨享調度資源群組運行ClickHouse SQL節點任務。
步驟一:建立ClickHouse SQL節點
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
按右鍵目標商務程序,選擇
。在建立節點對話方塊中輸入節點名稱,單擊確認,節點建立完成,您可在節點中進行對應任務的開發與配置。
步驟二:開發ClickHouse SQL任務
(可選)選擇ClickHouse資料來源
如果您的工作空間建立了多個ClickHouse資料來源,則需先在ClickHouse SQL節點編輯頁面選擇合適的資料來源。如果僅建立了一個ClickHouse資料來源,則預設使用該資料來源進行開發操作。
開發SQL代碼
在ClickHouse SQL節點的代碼編輯地區編寫要執行的ClickHouse SQL任務。樣本啟動並執行任務代碼如下。
CREATE DATABASE if not EXISTS ck_test;
CREATE TABLE if not EXISTS ck_test.first_table (
`product_code` String,
`package_name` String
) ENGINE = MergeTree ORDER BY package_name SETTINGS index_granularity = 8192;
insert into ck_test.first_table (product_code, package_name) VALUES ('1', '1');
select * from ck_test.first_table;
步驟三:配置任務調度
如您需要周期性執行建立的節點任務,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。配置詳情請參見任務調度屬性配置概述。
您需要設定節點的重跑屬性和依賴的上遊節點,才可以提交節點。
步驟四:調試任務代碼
您可根據需要執行如下調試操作,查看任務是否符合預期。
(可選)選擇運行資源群組、賦值自訂參數取值。
單擊工具列的表徵圖,在參數對話方塊選擇調試運行需使用的調度資源群組。
如您的任務代碼中有使用調度參數變數,可在此處為變數賦值,用於調試。參數賦值邏輯,詳情請參見任務調試流程。
儲存並運行SQL語句。
單擊工具列的表徵圖,儲存編寫的SQL語句,單擊表徵圖,運行建立的SQL任務。
(可選)煙霧測試 (Smoke Test)。
如您希望在開發環境進行煙霧測試 (Smoke Test),查看調度節點任務的執行是否符合預期,則可在節點提交時,或節點提交後執行煙霧測試 (Smoke Test),操作詳情請參見執行煙霧測試 (Smoke Test)。
步驟五:提交發布任務
節點任務配置完成後,需要執行提交發佈動作,提交發布後節點即會根據調度配置內容進行周期性運行。
單擊工具列中的表徵圖,儲存節點。
單擊工具列中的表徵圖,提交節點任務。
提交時需在提交對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱。
說明您需要設定節點的重跑屬性和依賴的上遊節點,才可提交節點。
程式碼檢閱可對任務的代碼品質進行把控,防止由於任務代碼有誤,未經審核直接發布上線後出現任務報錯。如進行程式碼檢閱,則提交的節點代碼必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱。
如您使用的是標準模式的工作空間,任務提交成功後,需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務。
後續步驟
任務提交發布後,會基於節點的配置周期性運行,您可單擊節點編輯介面右上方的營運,進入營運中心查看周期任務的調度運行情況。詳情請參見查看並管理周期任務。