全部產品
Search
文件中心

DataWorks:配置DataHub輸出

更新時間:Nov 21, 2024

DataHub是流式資料(Streaming Data)的處理平台,為您提供發布、訂閱和分發流式資料的功能,讓您可以輕鬆構建基於流式資料的分析和應用。

前提條件

配置DataHub輸出節點前,您需要先配置好相應的輸入或轉換資料來源,即時同步支援的資料來源

背景資訊

DataHub Writer通過DataHub服務的Java SDK向DataHub寫入資料,使用的Log ServiceJava SDK版本如下。

<dependency>
    <groupId>com.aliyun.datahub</groupId>
    <artifactId>aliyun-sdk-datahub</artifactId>
    <version>2.5.1</version>
</dependency>

操作步驟

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 滑鼠移至上方至建立表徵圖,單擊建立節點 > Data Integration > 即時同步

    您也可以展開商務程序,按右鍵目標商務程序,選擇建立節點 > Data Integration > 即時同步

  3. 建立節點對話方塊中,選擇同步方式單表(Topic)到單表(Topic)ETL,輸入名稱,並選擇路徑

    重要

    節點名稱必須是大小寫字母、中文、數字、底線(_)以及英文句號(.),且不能超過128個字元。

  4. 單擊確認

  5. 在即時同步節點的編輯頁面,按一下滑鼠輸出 > DataHub並拖拽至編輯面板,連線已配置好的輸入或轉換節點。

  6. 單擊DataHub節點,填寫節點配置對話方塊中的參數。

    image

    參數

    描述

    資料來源

    選擇已經配置好的DataHub資料來源,此處僅支援DataHub資料來源。

    如果未配置資料來源,請單擊右側的建立資料來源,跳轉至工作空間管理 > 資料來源管理頁面進行建立。詳情請參見配置DataHub資料來源

    Topic

    選擇當前資料來源下需要同步的Topic。您可以單擊右側的資料預覽進行確認。

    DataHub寫入模式

    DataHub寫入方式分為兩種:

    Tuple:結構化寫入,需要對應的DataHub topic是schema結構建立的。

    Blob:非結構化寫入,對應的DataHub topic是blob模式,按照二進位流塊模式寫入資料。

    批量條數

    支援批量同步的數量。

    欄位對應

    映射源端和目標端的欄位,進行同步任務時,會根據欄位的映射關係同步資料。

  7. 單擊工具列中的儲存表徵圖,儲存配置。