全部產品
Search
文件中心

DataWorks:ClickHouse資料來源

更新時間:Oct 24, 2024

ClickHouse資料來源為您提供讀取和寫入ClickHouse雙向通道的功能,本文為您介紹DataWorks的ClickHouse資料同步的能力支援情況。

支援的版本

  • 支援阿里雲ClickHouse的20.8、21.8核心版本。

  • 您需要確認驅動和您的ClickHouse服務之間的相容能力,資料庫驅動使用如下版本。

    <dependency>
        <groupId>ru.yandex.clickhouse</groupId>
        <artifactId>clickhouse-jdbc</artifactId>
        <version>0.2.4</version>
    </dependency>

使用限制

離線讀寫

  • 支援使用Serverless資源群組(推薦)獨享Data Integration資源群組

  • 支援使用JDBC串連ClickHouse,且僅支援使用JDBC Statement讀取資料。

  • 支援篩選部分列、列換序等功能,您可以自行填寫列。

  • 考慮到ClickHouse負載問題,ClickHouse Writer使用INSERT模式時,建議您限流系統輸送量(TPS)最高為1,000。

支援的欄位類型

支援阿里雲ClickHouse以下常見的資料類型,阿里雲ClickHouse的資料類型全集請參見資料類型,開源ClickHouse官方資料類型集合中的其他類型暫不支援,開源ClickHouse資料類型全集請參見ClickHouse Doc

資料類型

ClickHouse Reader

ClickHouse Writer

Int8

支援

支援

Int16

支援

支援

Int32

支援

支援

Int64

支援

支援

UInt8

支援

支援

UInt16

支援

支援

UInt32

支援

支援

UInt64

支援

支援

Float32

支援

支援

Float64

支援

支援

Decimal

支援

支援

String

支援

支援

FixedString

支援

支援

Date

支援

支援

DateTime

支援

支援

DateTime64

支援

支援

Boolean

支援

說明

ClickHouse沒有單獨的Boolean類型,可使用UInt8、Int8

支援

Array

部分支援。

數組元素類型是整型、浮點數、字串類型、DateTime64毫秒精度時支援。

支援

Tuple

支援

支援

Domain(IPv4,IPv6)

支援

支援

Enum8

支援

支援

Enum16

支援

支援

Nullable

支援

支援

Nested

部分支援。

Nested內嵌套資料類型是整型、浮點數、字串類型、DateTime64毫秒精度時支援。

支援

建立資料來源

在進行資料同步任務開發時,您需要在DataWorks上建立一個對應的資料來源,操作流程請參見建立並管理資料來源詳細的配置參數解釋可在配置介面查看對應參數的文案提示

資料同步任務開發

資料同步任務的配置入口和通用配置流程可參見下文的配置指導。

單表離線同步任務配置指導

整庫離線讀同步配置指導

操作流程請參見Data Integration側同步任務配置

附錄:指令碼Demo與參數說明

離線任務指令碼配置方式

如果您配置離線任務時使用指令碼模式的方式進行配置,您需要按照統一的指令碼格式要求,在任務指令碼中編寫相應的參數,詳情請參見通過指令碼模式配置離線同步任務,以下為您介紹指令碼模式下資料來源的參數配置詳情。

Reader指令碼Demo

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "clickhouse", //外掛程式名。
            "parameter": {
                "fetchSize":1024,//該配置項定義了外掛程式和資料庫伺服器端每次批量資料擷取條數。
                "datasource": "example",
                "column": [   //列名。
                    "id",
                    "name"
                ],
                "where": "",    //過濾條件。
                "splitPk": "",  //切分鍵。
                "table": ""    //表名。
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "clickhouse",
            "parameter": {
                "postSql": [
                    "update @table set db_modify_time = now() where db_id = 1"
                ],
                "datasource": "example",    //資料來源。
                "batchByteSize": "67108864",
                "column": [
                    "id",
                    "name"
                ],
                "writeMode": "insert",
                "encoding": "UTF-8",
                "batchSize": 1024,
                "table": "ClickHouse_table",
                "preSql": [
                    "delete from @table where db_id = -1"
                ]
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "executeMode": null,
        "errorLimit": {
            "record": "0"  //同步過程中的錯誤記錄限流數。
        },
        "speed": {
         "throttle":true,//當throttle值為false時,mbps參數不生效,表示不限流;當throttle值為true時,表示限流。
            "concurrent":1 //作業並發數。
            "mbps":"12",//限流,此處1mbps = 1MB/s。
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

Reader指令碼參數

參數

描述

是否必選

預設值

datasource

資料來源名稱,指令碼模式支援添加資料來源,此配置項填寫的內容必須要與添加的資料來源名稱保持一致。

table

所選取的需要同步的表。使用JSON資料進行描述。

說明

table必須包含在connection登錄區中。

fetchSize

該配置項定義了外掛程式和資料庫伺服器端每次批量資料擷取條數,該值決定了資料同步系統和伺服器端的網路互動次數,能夠提升資料幫浦效能。

說明

fetchSize值過大會造成資料同步進程OOM,需要根據ClickHouse負載情況遞增。

1,024

column

需要讀取的ClickHouse資料,欄位之間用英文逗號分隔。例如"column": ["id", "name", "age"]

說明

column配置項必須指定,不可為空。

jdbcUrl

到源端資料庫的JDBC串連資訊,jdbcUrl包含在connection登錄區中。

  • 在一個資料庫上只能配置一個值。

  • jdbcUrl的格式和ClickHouse官方一致,並可以串連附加參數資訊。例如:jdbc:clickhouse://localhost:3306/test?user=root&password=&useUnicode=true&characterEncoding=gbk &autoReconnect=true&failOverReadOnly=false

username

資料來源的使用者名稱。

password

資料來源指定使用者名稱的密碼。

splitPk

ClickHouse進行資料幫浦時,如果指定splitPk,表示您希望使用splitPk代表的欄位進行資料分區,資料同步因此會啟動並發任務進行資料同步,提高資料同步的效率。

說明

當配置了splitPk時,fetchSize參數為必填項。

where

篩選條件,在實際業務情境中,往往會選擇當天的資料進行同步,將where條件指定為gmt_create>$bizdate

where條件可以有效地進行業務增量同步處理。如果不填寫where語句,包括不提供where的key或value,資料同步均視作同步全量資料。

Writer指令碼Demo

{
    "type":"job",
    "version":"2.0",//版本號碼。
    "steps":[
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"clickhouse",//外掛程式名。
            "parameter":{
                "username": "",
                "password": "",
                "column": [//欄位。
                    "id",
                    "name"
                ],
                "connection": [
                    {
                        "table": [//表名。
                            "ClickHouse_table"
                        ],
                        "jdbcUrl": "jdbc:clickhouse://ip:port/database"
                    }
                ],
                "preSql": [ //執行資料同步任務之前率先執行的SQL語句。
                    "TRUNCATETABLEIFEXISTStablename"
                ],
                "postSql": [//執行資料同步任務之後率先執行的SQL語句。
                    "ALTERTABLEtablenameUPDATEcol1=1WHEREcol2=2"
                ],
                "batchSize": "1024",
                "batchByteSize": "67108864",
                "writeMode": "insert"
            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"//錯誤記錄數。
        },
        "speed":{
            "throttle":true,//當throttle值為false時,mbps參數不生效,表示不限流;當throttle值為true時,表示限流。
            "concurrent":1, //作業並發數。
            "mbps":"12"//限流,此處1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

Writer指令碼參數

參數

描述

是否必選

預設值

jdbcUrl

到對端資料庫的JDBC串連資訊,jdbcUrl包含在connection登錄區中。

  • 在一個資料庫上只能配置一個值。

  • jdbcUrl的格式和ClickHouse官方一致,並可以串連附加參數資訊。例如,jdbc:clickhouse://127.0.0.1:3306/database

username

資料來源的使用者名稱。

password

資料來源指定使用者名稱的密碼。

table

需要同步寫出的表名稱,使用JSON的數組進行描述。

說明

table必須包含在connection登錄區中。

column

目標表需要寫入資料的欄位,欄位之間用英文所逗號分隔。例如"column": ["id", "name", "age"]

說明

column配置項必須指定,不可為空。

preSql

寫入資料至目標表前,會先執行此處的標準語句。

postSql

寫入資料至目標表後,會執行此處的標準語句。

batchSize

一次性批量提交的記錄數大小,該值可以極大減少資料同步系統與ClickHouse的網路互動次數,並提升整體輸送量。如果該值設定過大,會導致資料同步運行進程OOM異常。

1,024