全部產品
Search
文件中心

DataWorks:ClickHouse整庫資料離線同步至Hologres

更新時間:Nov 16, 2024

本文以ClickHouse離線同步寫入Hologres情境為例,為您介紹如何一次性把ClickHouse整個資料庫的資料離線同步至Hologres。

使用限制

  • ClickHouse離線同步僅支援阿里雲ClickHouse 20.8、21.8版本。

  • ClickHouse離線同步僅支援使用獨享Data Integration資源群組或新版資源群組(通用型資源群組)。

前提條件

操作步驟

步驟一:選擇同步任務類型

  1. 進入Data Integration頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > Data Integration,在下拉框中選擇對應工作空間後單擊進入Data Integration

  2. 在左側導覽列單擊同步任務,然後在建立同步任務地區,配置來源Clickhouse去向Hologres,點擊開始建立。進入建立同步任務頁面。

    • 新任務名稱:自訂同步任務名稱。

    • 同步類型:選擇整庫離線

步驟二:配置網路連通

  1. 網路與資源配置地區,資料來源選擇已添加的ClickHouse資料來源,資料去向選擇已添加的Hologres資料來源,選擇同步資源群組後,單擊測試所有連通性,測試資源群組與資料來源的連通性。

    image

  2. 單擊下一步

步驟三:選擇要同步的表

此步驟中,您可以在源端庫表地區選取項目源端資料來源下需要同步的表,並單擊image表徵圖,將其移動至右側已選庫表

image

步驟四:目標表映射

目標表映射地區,全選目標表映射框中的表資訊,單擊批量重新整理映射按鈕。

說明

在上一步驟選擇完需要同步的表後,將自動在此介面展示當前待同步的表,但目標表的相關屬性預設為待映射狀態,需要您定義並確認源表與目標表映射關係,即資料的讀取與寫入關係,然後單擊重新整理映射後才可進入下一步操作。您可以直接重新整理映射,或自訂目標表規則後,再重新整理映射。

您還可以選中列表中的表資訊,單擊批量修改,配置如下資訊。

配置項

描述

目標表欄位賦值

支援為目標表添加常量,變數。

目標Schema名映射自訂

可以使用內建變數和手動輸入的字串拼接成為最終目標Schema名。其中,支援您編輯內建變數,例如,做字串替換。

目標表名映射自訂

可以使用內建變數和手動輸入的字串拼接成為最終目標表名。其中,支援您編輯內建變數,例如,做字串替換。

目標表結構-批量修改和新增欄位

可以批量修改目標表結構、添加欄位和設定主鍵。

步驟五:編輯欄位類型映射

在Hologres目標表為待建立的狀態下,系統有一份預設的ClickHouse錶轉換到Hologres表的欄位類型映射(如下表所示),您還可以單擊右上方的編輯欄位類型映射自訂欄位類型映射。修改後單擊應用並重新整理映射

類別

ClickHouse

Hologres

日期

Date

Date

DateTime

TIMESTAMPTZ

DateTime(timezone)

TIMESTAMPTZ

DateTime64

TIMESTAMPTZ

數值

Int8

SMALLINT

Int16

SMALLINT

Int32

INTEGER

Int64

BIGINT

UInt8

INTEGER

UInt16

INTEGER

UInt32

BIGINT

UInt64

BIGINT

Float32

FLOAT

Float64

DOUBLE PRECISION

Decimal(P, S)

DECIMAL

Decimal32(S)

DECIMAL

Decimal64(S)

DECIMAL

Decimal128(S)

DECIMAL

布爾

無,使用UInt8代替。

BOOLEAN

字元

String

TEXT

步驟六:進階參數配置

您可以單擊右上方的進階參數配置,對同步任務讀端與寫端進行精細化配置,例如最大串連數、離線任務限流相關參數。

步驟七:資源群組配置

您可以在右上方的資源群組配置處修改任務運行使用的獨享Data Integration資源群組。

步驟八:執行同步任務

  1. 完成所有配置後,單擊頁面底部的完成配置

  2. Data Integration > 同步任務介面,找到已建立的同步任務,單擊操作列的啟動

  3. 單擊工作清單中對應任務的名稱/ID,查看任務的詳細執行過程。

同步任務營運

查看任務運行狀態

建立完成同步任務後,您可以在同步任務頁面查看當前已建立的同步工作清單及各個同步任務的基本資料。image

  • 您可以在操作列啟動或停止同步任務,在更多中可以對同步任務進行編輯、查看詳情等操作。

  • 已啟動的任務您可以在執行概況中看到任務啟動並執行基本情況,也可以單擊對應的概況地區查看執行詳情。執行詳情

任務重跑

在某些特殊情況下,如果您需要增減表、修改目標表Schema資訊或者表名資訊時,您還可以單擊同步任務操作列的重跑,系統會將新增的表或有變更的表進行同步,之前同步過的表或者未修改的表將不會再進行同步。