DataWorks的資料開發(DataStudio)模組為您提供多種類型的節點,包括用於資料同步的Data Integration節點,用於資料清洗的引擎計算節點(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可對引擎計算節點進行複雜邏輯處理的通用節點(例如,可統籌管理多個節點的虛擬節點、可迴圈執行代碼的do-while節點),多種節點配合使用,滿足您不同的資料處理需求。
資料開發(DataStudio)支援的節點合集
資料開發支援的節點類型匯總如下。
類型 | 描述 |
DataWorksData Integration支援複雜網路環境下的資料同步,並提供用於離線(批量)資料周期性同步的離線同步節點,與用於單表或整庫增量資料即時同步的即時同步節點。該節點可在資料開發(DataStudio)介面直接建立。 | |
DataWorks將計算引擎能力進行封裝,您可基於引擎節點進行資料開發,無需接觸複雜的引擎命令列,便可在DataWorks實現各類任務的周期性調度。 目前支援MaxCompute、Hologres、E-MapReduce、AnalyticDB For PostgreSQL、AnalyticDB For MySQL、MySQL、ClickHouse、CDH、演算法等多類計算引擎的多種節點。 | |
DataWorks提供的通用類型節點可結合引擎計算節點進行複雜邏輯處理。例如:用於迴圈執行代碼的do-while節點,與遍曆、判斷上遊賦值結果的for-each節點、分支節點等。 |
本文為您呈現了節點類型對應的節點編碼(即節點Code),通過調用API執行節點相關操作(例如,擷取節點資訊)時會使用該編碼。您也可調用ListFileType介面,查詢節點編碼。
Data Integration同步類節點
用於資料同步任務使用,Data Integration類型節點介紹如下。
Data Integration節點 | 使用介紹 | 節點編碼 |
用於離線(批量)資料周期性同步情境,並且支援複雜情境下多種異構資料來源間資料同步。 離線同步支援的資料來源詳情,請參見支援的資料來源及同步方案。 | 23 | |
用於增量資料即時同步情境。即時同步包括即時讀取、轉換和寫入三種基礎外掛程式,各外掛程式之間通過內部定義的中間資料格式進行互動。 即時同步支援的資料來源詳情,請參見支援的資料來源及同步方案。 | 900 |
除在資料開發(DataStudio)介面直接建立的節點外,Data Integration主站還支援多種類型同步方案。例如,全增量資料即時同步,整庫離線同步等,詳情請參見Data Integration側同步任務能力說明。Data Integration主站的任務,通常Code為24
。
引擎計算類節點
您可在具體商務程序,選擇在某引擎下建立對應類型的引擎節點,基於該節點進行資料開發,並將引擎代碼下發至對應的資料清洗引擎上執行。引擎計算類型節點介紹如下。
請先為DataWorks工作空間開通對應服務並建立相應引擎資料來源,DataWorks需基於建立的資料來源訪問對應引擎資料並執行相關開發操作。建立資料來源,請參見建立並管理資料來源。
DataWorks整合的引擎 | DataWorks對引擎能力的封裝 | 節點編碼 |
MaxCompute | 10 | |
225 | ||
221 | ||
1221 | ||
24 | ||
11 | ||
1010 | ||
E-MapReduce | 227 | |
230 | ||
229 | ||
228 | ||
257 | ||
259 | ||
264 | ||
268 | ||
267 | ||
CDH | 270 | |
271 | ||
273 | ||
278 | ||
279 | ||
- | ||
AnalyticDB For PostgreSQL | - | |
AnalyticDB For MySQL | - | |
Hologres | 1093 | |
1094 | ||
- | ||
ClickHouse | - | |
StarRocks | 10004 | |
演算法(機器學習) | - | |
- | ||
- | ||
資料庫 | 1000039 | |
10001 | ||
10002 | ||
10003 | ||
10005 | ||
10006 | ||
10007 | ||
10008 | ||
10009 | ||
10011 | ||
- | ||
10013 | ||
10014 | ||
10015 | ||
10016 | ||
10017 | ||
- | ||
其他 | 1000023 |
通用類節點
引擎節點可結合通用節點進行複雜邏輯處理。在具體商務程序下,您可在通用節點分組下建立所需節點,結合引擎節點實現複雜邏輯處理。不同節點的使用情境及相關介紹如下。
業務情境 | 節點類型 | 節點編碼 | 使用說明 |
業務管理 | 99 | 虛擬節點屬於控制類型節點,它是不產生任何資料的空跑節點,通常作為商務程序統籌節點的根節點,方便您管理節點及商務程序。 | |
事件觸發 | 1114 | 如果您希望其他調度系統的任務完成後觸發DataWorks上的任務運行,可以使用此節點。 說明 DataWorks已不再支援建立跨租戶節點,如果您使用了跨租戶節點,建議更換為HTTP觸發器節點,該節點與跨租戶節點能力相同。 | |
239 | 通過監控OSS對象產生來觸發下遊節點執行。 | ||
1320 | 通過監控FTP檔案產生來觸發下遊節點執行。 | ||
241 | 用於檢查目標對象(MaxCompute分區表、FTP檔案或OSS檔案)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。如果某任務的運行依賴目標對象,您可使用Check節點檢查目標對象,並設定該任務為Check節點的下遊任務,當Check節點滿足檢查策略後,便會運行成功並觸發下遊任務執行。 | ||
參數賦值與傳遞 | 1100 | 用於參數傳遞,通過內建的output輸出將賦值節點最後一條查詢或輸出結果通過節點上下文功能傳遞到下遊,實現參數跨節點傳遞。 | |
1115 | 用於上遊節點將參數匯總並分發向下傳遞。 | ||
控制類 | 1106 | 用於遍曆賦值節點傳遞的結果集。 | |
1103 | 用於迴圈執行部分節點邏輯,同時您也可結合賦值節點來迴圈輸出賦值節點傳遞的結果。 | ||
1101 | 用於對上遊結果進行判斷,決定不同結果走不同的分支邏輯,您可結合賦值節點一起使用。 | ||
1102 | 用於對上遊節點的運行狀態進行歸併,解決分支節點下遊節點的依賴掛載和運行觸發問題。 | ||
其他 | 6 | Shell節點支援標準Shell文法,但不支援互動性文法。 | |
1330 | 用於周期性調度處理事件函數,並完成與其它類型節點的整合和聯合調度。 |