DataHub是流式資料(Streaming Data)的處理平台,為您提供發布、訂閱和分發流式資料的功能,讓您可以輕鬆構建基於流式資料的分析和應用。
前提條件
配置DataHub輸出節點前,您需要先配置好相應的輸入或轉換資料來源,即時同步支援的資料來源。
背景資訊
DataHub Writer通過DataHub服務的Java SDK向DataHub寫入資料,使用的Log ServiceJava SDK版本如下。
<dependency>
<groupId>com.aliyun.datahub</groupId>
<artifactId>aliyun-sdk-datahub</artifactId>
<version>2.5.1</version>
</dependency>
操作步驟
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
滑鼠移至上方至表徵圖,單擊 。
您也可以展開商務程序,按右鍵目標商務程序,選擇
。在建立節點對話方塊中,選擇同步方式為單表(Topic)到單表(Topic)ETL,輸入名稱,並選擇路徑。
重要節點名稱必須是大小寫字母、中文、數字、底線(_)以及英文句號(.),且不能超過128個字元。
單擊確認。
在即時同步節點的編輯頁面,按一下滑鼠 並拖拽至編輯面板,連線已配置好的輸入或轉換節點。
單擊DataHub節點,填寫節點配置對話方塊中的參數。
參數
描述
資料來源
選擇已經配置好的DataHub資料來源,此處僅支援DataHub資料來源。
如果未配置資料來源,請單擊右側的建立資料來源,跳轉至配置DataHub資料來源。
頁面進行建立。詳情請參見Topic
選擇當前資料來源下需要同步的Topic。您可以單擊右側的資料預覽進行確認。
DataHub寫入模式
DataHub寫入方式分為兩種:
Tuple:結構化寫入,需要對應的DataHub topic是schema結構建立的。
Blob:非結構化寫入,對應的DataHub topic是blob模式,按照二進位流塊模式寫入資料。
批量條數
支援批量同步的數量。
欄位對應
映射源端和目標端的欄位,進行同步任務時,會根據欄位的映射關係同步資料。
單擊工具列中的表徵圖,儲存配置。