全部產品
Search
文件中心

DataWorks:DataWorks節點合集

更新時間:Jul 16, 2024

DataWorks的資料開發(DataStudio)模組為您提供多種類型的節點,包括用於資料同步的Data Integration節點,用於資料清洗的引擎計算節點(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可對引擎計算節點進行複雜邏輯處理的通用節點(例如,可統籌管理多個節點的虛擬節點、可迴圈執行代碼的do-while節點),多種節點配合使用,滿足您不同的資料處理需求。

資料開發(DataStudio)支援的節點合集

資料開發支援的節點類型匯總如下。

類型

描述

Data Integration同步類節點

DataWorksData Integration支援複雜網路環境下的資料同步,並提供用於離線(批量)資料周期性同步的離線同步節點,與用於單表或整庫增量資料即時同步的即時同步節點。該節點可在資料開發(DataStudio)介面直接建立。

引擎計算類節點

DataWorks將計算引擎能力進行封裝,您可基於引擎節點進行資料開發,無需接觸複雜的引擎命令列,便可在DataWorks實現各類任務的周期性調度。

目前支援MaxComputeHologresE-MapReduceAnalyticDB For PostgreSQLAnalyticDB For MySQLMySQLClickHouseCDH演算法等多類計算引擎的多種節點。

通用類節點

DataWorks提供的通用類型節點可結合引擎計算節點進行複雜邏輯處理。例如:用於迴圈執行代碼的do-while節點,與遍曆、判斷上遊賦值結果的for-each節點、分支節點等。

說明

本文為您呈現了節點類型對應的節點編碼(即節點Code),通過調用API執行節點相關操作(例如,擷取節點資訊)時會使用該編碼。您也可調用ListFileType介面,查詢節點編碼。

Data Integration同步類節點

用於資料同步任務使用,Data Integration類型節點介紹如下。

Data Integration節點

使用介紹

節點編碼

離線同步節點

用於離線(批量)資料周期性同步情境,並且支援複雜情境下多種異構資料來源間資料同步。

離線同步支援的資料來源詳情,請參見支援的資料來源及同步方案

24

即時同步節點

用於增量資料即時同步情境。即時同步包括即時讀取、轉換和寫入三種基礎外掛程式,各外掛程式之間通過內部定義的中間資料格式進行互動。

即時同步支援的資料來源詳情,請參見支援的資料來源及同步方案

900

說明

除在資料開發(DataStudio)介面直接建立的節點外,Data Integration主站還支援多種類型同步方案。例如,全增量資料即時同步,整庫離線同步等,詳情請參見Data Integration側同步任務能力說明。Data Integration主站的任務,通常Code為24

引擎計算類節點

您可在具體商務程序,選擇在某引擎下建立對應類型的引擎節點,基於該節點進行資料開發,並將引擎代碼下發至對應的資料清洗引擎上執行。引擎計算類型節點介紹如下。

說明

請先為DataWorks工作空間開通對應服務並建立相應引擎資料來源,DataWorks需基於建立的資料來源訪問對應引擎資料並執行相關開發操作。建立資料來源,請參見建立並管理資料來源

DataWorks整合的引擎

DataWorks對引擎能力的封裝

節點編碼

MaxCompute

ODPS SQL節點

10

ODPS Spark節點

225

PyODPS 2節點

221

PyODPS 3節點

1221

ODPS Script節點

24

ODPS MR節點

11

SQL元件節點

1010

E-MapReduce

EMR Hive節點

227

EMR MR節點

230

EMR Spark SQL節點

229

EMR Spark節點

228

EMR Shell節點

257

EMR Presto節點

259

EMR Spark Streaming節點

264

EMR Kyuubi節點

268

Trino節點

267

CDH

CDH Hive節點

270

CDH Spark節點

271

CDH MR節點

273

CDH Presto節點

278

CDH Impala節點

279

CDH Spark SQL節點

-

AnalyticDB For PostgreSQL

AnalyticDB for PostgreSQL節點

-

AnalyticDB For MySQL

AnalyticDB for MySQL節點

-

Hologres

Hologres SQL節點

1093

一鍵MaxCompute表結構同步節點

1094

一鍵MaxCompute資料同步節點

-

ClickHouse

ClickHouse SQL

-

StarRocks

StarRocks

10004

演算法(機器學習)

PAI Studio節點

-

PAI Designer節點

-

PAI DLC節點

-

資料庫

MySQL節點

1000039

SQL Server節點

10001

Oracle節點

10002

PostgreSQL節點

10003

DRDS節點

10005

PolarDB MySQL節點

10006

PolarDB PostgreSQL節點

10007

Doris節點

10008

MariaDB節點

10009

Redshift節點

10011

SAP HANA節點

-

Vertica節點

10013

DM(達夢)節點

10014

KingbaseES(人大金倉)節點

10015

OceanBase節點

10016

DB2節點

10017

GBase 8a節點

-

其他

Data Lake Analytics節點

1000023

通用類節點

引擎節點可結合通用節點進行複雜邏輯處理。在具體商務程序下,您可在通用節點分組下建立所需節點,結合引擎節點實現複雜邏輯處理。不同節點的使用情境及相關介紹如下。

業務情境

節點類型

節點編碼

使用說明

業務管理

虛擬節點

99

虛擬節點屬於控制類型節點,它是不產生任何資料的空跑節點,通常作為商務程序統籌節點的根節點,方便您管理節點及商務程序。

事件觸發

HTTP觸發器節點

1114

如果您希望其他調度系統的任務完成後觸發DataWorks上的任務運行,可以使用此節點。

OSS對象檢查節點

239

通過監控OSS對象產生來觸發下遊節點執行。

FTP Check節點

1320

通過監控FTP檔案產生來觸發下遊節點執行。

Check節點

241

用於檢查目標對象(MaxCompute分區表、FTP檔案或OSS檔案)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。如果某任務的運行依賴目標對象,您可使用Check節點檢查目標對象,並設定該任務為Check節點的下遊任務,當Check節點滿足檢查策略後,便會運行成功並觸發下遊任務執行。

參數賦值與傳遞

賦值節點

1100

用於參數傳遞,通過內建的output輸出將賦值節點最後一條查詢或輸出結果通過節點上下文功能傳遞到下遊,實現參數跨節點傳遞。

參數節點

1115

用於上遊節點將參數匯總並分發向下傳遞。

控制類

for-each節點

1106

用於遍曆賦值節點傳遞的結果集。

do-while節點

1103

用於迴圈執行部分節點邏輯,同時您也可結合賦值節點來迴圈輸出賦值節點傳遞的結果。

分支節點

1101

用於對上遊結果進行判斷,決定不同結果走不同的分支邏輯,您可結合賦值節點一起使用。

歸併節點

1102

用於對上遊節點的運行狀態進行歸併,解決分支節點下遊節點的依賴掛載和運行觸發問題。

其他

Shell節點

6

Shell節點支援標準Shell文法,但不支援互動性文法。

Function Compute節點

1330

用於周期性調度處理事件函數,並完成與其它類型節點的整合和聯合調度。