DataWorks的StarRocks資料來源為您提供讀取和寫入StarRocks的雙向通道,支援通過StarRocks節點進行任務開發和周期性調度,以及與其他作業的整合操作。本文為您介紹如何通過DataWorks串連StarRocks執行個體。
前提條件
已開通DataWorks並建立專案,詳情請參見開通DataWorks服務。
已購買並完成DataWorks資源群組的空間綁定、網路等配置,詳情請參見資源群組管理。
已建立EMR Serverless StarRocks執行個體,詳情請參見建立執行個體。
操作步驟
步驟一:網路準備
為保證資源群組網路連通性,您需要提前將後續要使用的DataWorks資源群組的IP地址添加至EMR Serverless StarRocks執行個體的內網白名單中。
步驟二:建立StarRocks資料來源
進入Data Integration頁面。
登入DataWorks控制台,切換至目標地區,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入Data Integration。
在左側導覽列單擊資料來源,然後單擊新增資料來源。
新增StarRocks資料來源。
在新增資料來源的搜尋欄中,輸入並選擇StarRocks資料來源。
在新增StarRocks資料來源對話方塊中,配置以下基礎資訊,其餘參數保持預設值即可。

參數
說明
資料來源名稱
您已自訂。本樣本為StarRocks。
配置模式
選擇阿里雲執行個體模式。
內網串連:本文使用的是內網串連方式,需確保DataWorks資源群組與StarRocks執行個體處於同一VPC。
公網串連:選擇串連串模式。如果您需要使用公網串連,更多參數資訊請參見StarRocks資料來源。
地區
選擇StarRocks執行個體所在的地區。例如,華東1(杭州)。
執行個體
選擇已建立的StarRocks執行個體。
資料庫名稱
指定要串連的資料庫名稱。您可以通過以下方式擷取:
您可以通過EMR StarRocks Manager串連StarRocks執行個體後,在中繼資料管理中查看現有資料庫。
您也可以直接使用StarRocks執行個體中內建的資料庫(例如,information_schema)。
說明在DataWorks中編寫SQL代碼時,若需跨資料庫訪問表,需確保目前使用者具有目標資料庫的存取權限,並使用
<資料庫名>.<表名>格式訪問。使用者名稱和密碼
StarRocks執行個體的使用者名稱和密碼。
預設管理使用者為
admin,密碼為建立執行個體時自訂的密碼。如果忘記該密碼,可以進行重設,詳情請參見如何重設執行個體的密碼?
在串連配置地區,找到工作空間已綁定的資源群組,單擊連通狀態列的測試連通性。
如果測試資源群組連通性狀態為可連通,即完成新增資料來源的建立。
如果顯示無法連通,表示資源群組與資料來源無法連通,後續相應資料來源任務將無法正常執行,此時您需要根據右側彈出的連通性診斷工具視窗,自助解決連通性問題,連通性診斷工具會提示目前連通失敗的原因,請根據提示進行修改調整。
單擊完成。
步驟三:建立StarRocks節點
StarRocks節點用於編寫、調試及調度SQL任務,建立後可在調度配置中設定執行循環。
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊目標商務程序,右鍵選擇。
在建立節點對話方塊輸入節點名稱,單擊確認,節點建立完成,您可在節點中進行對應任務的開發與配置。
步驟四:開發StarRocks任務
在資料開發頁面,從資料來源下拉式清單中選擇已建立的StarRocks資料來源。
編寫並運行SQL代碼。
根據您的需求編寫並運行SQL代碼,選擇運行需使用的調度資源群組。本文通過以下兩個樣本展示如何開發StarRocks任務:
樣本1:建立資料庫
CREATE DATABASE IF NOT EXISTS load_test;執行成功後,您可以在EMR Serverless StarRocks頁面驗證結果。
在SQL Editor中執行以下命令,查看已建立的資料庫。
SHOW DATABASES;如果
load_test資料庫出現在結果清單中,則說明建立成功。
樣本2:查詢StarRocks資料庫中所有基本表資訊
SELECT * FROM information_schema.tables WHERE table_type = 'BASE TABLE';執行上述查詢後,返回的結果可能如下所示。

相關文檔
如需通過StarRocks節點進行任務開發和周期性調度,請參見StarRocks節點。