本文為您介紹雲資料庫ClickHouse產品中涉及的一些基本術語和概念,以便於您更好地理解雲資料庫ClickHouse產品。
通用概念
地區(Region)
雲資料庫ClickHouse的伺服器的地理位置。在購買雲資料庫ClickHouse服務時,您需指定服務地區,並且地區一旦指定後,無法變更。
可用性區域(Zone)
在同一地區下,電源和網路隔離的物理地區。可用性區域之間內網互連,且內網路延時更小。
資料庫(Database)
資料庫是雲資料庫ClickHouse叢集中的最進階別對象,其由表(Table)、列(Column)、視圖(View)、函數、資料類型等組成。
社區相容版
ClickHouse叢集(Cluster)
在物理構成上,ClickHouse叢集由多個ClickHouse Server執行個體組成,形成一個分散式資料庫。這些ClickHouse Server根據採購規格的不同,可能包含一個或多個副本(Replica)以及一個或多個分區(Shard)。
在邏輯構成上,一個ClickHouse叢集可以包含多個資料庫(Database)對象。
副本配置(Edition)
ClickHouse叢集包含如下副本。
雙副本版:
每個節點包含兩個副本,當某個副本的服務不可用時,同一分區的另一個副本仍可持續提供服務。
設定為雙副本時,每份資料都會被複製到兩個不同的副本上,副本之間的資料完全一致。
重要在雙複本集群中建表時,必須使用MergeTree系列引擎中支援資料複製的Replicated系列引擎。如果您在雙複本集群中,建立了非Replicated系列引擎的表,將導致副本之間無法進行資料複製,從而導致副本資料可能不一致。
單副本版:每個節點只有一個副本,當該副本的服務不可用時,將導致整個叢集的不可用。若要叢集繼續提供穩定服務,只能等待該副本完全恢複服務狀態。
雙副本版的資源以及對應的購買成本都是單副本版的2倍。
由於底層雲端硬碟提供高可靠保證,即便是單副本版也能確保資料不會丟失。
分區(Shard)
在超大規模海量資料處理情境下,單台伺服器的儲存與計算資源可能會成為瓶頸。為了進一步提高服務效率,雲資料庫ClickHouse將海量資料分散儲存至多台伺服器上,每台伺服器只儲存和處理海量資料的一部分。在這種架構下,每台伺服器被稱為一個分區(Shard)。
副本(Replica)
為了在異常情況下保證資料的安全性和服務的高可用性,雲資料庫ClickHouse提供了副本機制,將單台伺服器的資料冗餘儲存在兩台或多台伺服器上。
表(Table)
表用於儲存資料的基本結構。它由行和列組成,其中每一列表示一個欄位,每一行表示一條記錄。
從資料分布角度來看,雲資料庫ClickHouse的表可以分為兩種類型:本地表和分布式表。
表類型 | 說明 | 區別 |
本地表(Local Table) | 資料只會儲存在當前寫入的節點上,不會被分散到多台伺服器上。 |
|
分布式表(Distributed Table) | 本地表的集合。 它將多個本地表抽象為一張統一的表,對外提供寫入和查詢功能。當寫入資料時,資料會被自動分發到集合中的各個本地表中;當查詢資料時,集合中的各個本地表都會被分別查詢,並且把最終結果匯總後返回。 |
從儲存引擎角度來看,雲資料庫ClickHouse的表也可以分為兩種類型:單機表和複製表。
表類型 | 說明 | 區別 |
單機表(Non-Replicated Table) | 資料只會儲存在當前伺服器上,不會被複製到其他伺服器,即只有一個副本。 |
|
複製表(Replicated Table) | 資料會被自動複製到多台伺服器上,形成多個副本。 |
Data part
Data part是指儲存在硬碟上的一個資料片段,它是ClickHouse表資料存放區的基本單位。每次向ClickHouse表寫入資料時,都會產生一個新的資料分區。每個資料分區都是自包含的,包括了該部分資料的所有列和索引,且保持著資料的有序性。資料分區的設計支援了高效的合并和壓縮操作,這對於ClickHouse的高效能查詢處理至關重要。
企業版
ClickHouse叢集
ClickHouse叢集包含若干單位計算資源和儲存資源,能夠提供ClickHouse引擎資料存放區和分析服務的PAAS服務。
Worker節點
Worker節點是ClickHouse叢集內部的副本節點,參與引擎計算的實際資源。
CCU
CCU(ClickHouse Compute Unit)是ClickHouse叢集計算資源的計量和計費單位,1 CCU對應資源為1 Vcpu 4 GiB。標準計費單位:CCU/分鐘。
計算資源自動彈性
計算資源自動彈性(Autoscaling)是計算資源根據CPU和記憶體使用量率自動擴充CCU。
彈性資源設定區間
彈性資源設定區間是使用者佈建CCU使用區間,彈性擴縮必須保持在使用者佈建的資源區間內,不能小於最小值且不能大於最大值。
儲存資源
儲存資源是企業版本採用的共用儲存方案,按需付費。