ClickHouse資料來源為您提供讀取和寫入ClickHouse雙向通道的功能,本文為您介紹DataWorks的ClickHouse資料同步的能力支援情況。
支援的版本
支援阿里雲ClickHouse的20.8、21.8核心版本。
您需要確認驅動和您的ClickHouse服務之間的相容能力,資料庫驅動使用如下版本。
<dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clickhouse-jdbc</artifactId> <version>0.2.4</version> </dependency>
使用限制
離線讀寫
支援使用JDBC串連ClickHouse,且僅支援使用JDBC Statement讀取資料。
支援篩選部分列、列換序等功能,您可以自行填寫列。
考慮到ClickHouse負載問題,ClickHouse Writer使用INSERT模式時,建議您限流系統輸送量(TPS)最高為1,000。
支援的欄位類型
支援阿里雲ClickHouse以下常見的資料類型,阿里雲ClickHouse的資料類型全集請參見資料類型,開源ClickHouse官方資料類型集合中的其他類型暫不支援,開源ClickHouse資料類型全集請參見ClickHouse Doc。
資料類型 | ClickHouse Reader | ClickHouse Writer |
Int8 | 支援 | 支援 |
Int16 | 支援 | 支援 |
Int32 | 支援 | 支援 |
Int64 | 支援 | 支援 |
UInt8 | 支援 | 支援 |
UInt16 | 支援 | 支援 |
UInt32 | 支援 | 支援 |
UInt64 | 支援 | 支援 |
Float32 | 支援 | 支援 |
Float64 | 支援 | 支援 |
Decimal | 支援 | 支援 |
String | 支援 | 支援 |
FixedString | 支援 | 支援 |
Date | 支援 | 支援 |
DateTime | 支援 | 支援 |
DateTime64 | 支援 | 支援 |
Boolean | 支援 說明 ClickHouse沒有單獨的Boolean類型,可使用UInt8、Int8 | 支援 |
Array | 部分支援。 數組元素類型是整型、浮點數、字串類型、DateTime64毫秒精度時支援。 | 支援 |
Tuple | 支援 | 支援 |
Domain(IPv4,IPv6) | 支援 | 支援 |
Enum8 | 支援 | 支援 |
Enum16 | 支援 | 支援 |
Nullable | 支援 | 支援 |
Nested | 部分支援。 Nested內嵌套資料類型是整型、浮點數、字串類型、DateTime64毫秒精度時支援。 | 支援 |
建立資料來源
在進行資料同步任務開發時,您需要在DataWorks上建立一個對應的資料來源,操作流程請參見建立並管理資料來源,詳細的配置參數解釋可在配置介面查看對應參數的文案提示。
資料同步任務開發
資料同步任務的配置入口和通用配置流程可參見下文的配置指導。
單表離線同步任務配置指導
操作流程請參見通過嚮導模式配置離線同步任務、通過指令碼模式配置離線同步任務。
指令碼模式配置的全量參數和指令碼Demo請參見下文的附錄:指令碼Demo與參數說明。
整庫離線讀同步配置指導
操作流程請參見Data Integration側同步任務配置。
附錄:指令碼Demo與參數說明
離線任務指令碼配置方式
如果您配置離線任務時使用指令碼模式的方式進行配置,您需要按照統一的指令碼格式要求,在任務指令碼中編寫相應的參數,詳情請參見通過指令碼模式配置離線同步任務,以下為您介紹指令碼模式下資料來源的參數配置詳情。