Hologres可通過DDL方式建立Hologres內部表,也可使用DataWorks提供的可視化方式建立。本文為您介紹如何使用DataWorks可視化方式建立Hologres內部表。
前提條件
工作空間已建立Hologres資料來源,並將其綁定至資料開發。詳情請參見建立Hologres資料來源、開發前準備:綁定資料來源或叢集。
建立表的使用者具備開發許可權角色,空間管理員或開發。授權詳情請參見空間級模組許可權管控。
背景資訊
Hologres的表類型分為內部表和外部表格,其區別如下:
內部表:可直接儲存MaxCompute來源資料。您可將MaxCompute源表資料同步至Hologres內部表中快速查詢分析。該方式比建立外部表格方式查詢效能更好。
外部表格:不能直接儲存MaxCompute來源資料,但可將MaxCompute源表資料對應至Hologres外部表格中,加速查詢分析資料。該方式無冗餘儲存,無需匯入匯出資料,即可快速擷取查詢結果。
DataWorks作為資料加工的開發平台,提供了便捷的可視化建表方式,同時,您也可以直接使用Hologres通過DDL語句建表,詳情請參見建表概述。
使用限制
當前僅華東2(上海)、華北2(北京)地區支援使用該功能。
操作步驟
進入資料開發頁面。
登入DataWorks控制台,單擊左側導覽列的資料建模與開發 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發。
建立商務程序。
如果您已有商務程序,則可以忽略該步驟。
滑鼠移至上方至表徵圖,選擇建立商務程序。
在建立商務程序對話方塊,輸入業務名稱。
單擊建立。
建立Hologres內部表。
滑鼠移至上方至表徵圖,選擇 。
在建立表對話方塊,選擇表類型為內部表,並配置表所在的引擎、路徑及名稱等資訊。
配置Hologres內部表。
在Hologres內部表的編輯頁面,您可配置表的相關資訊。
配置基礎屬性。
表的主要基礎屬性如下。
參數
描述
儲存模式
表在Hologres中的儲存模式。預設為列存。
列存:適用於OLAP情境。適合各種複雜查詢、資料關聯、掃描、過濾和統計。寫入和更新效率低於行存表。
行存:適用於 KV(key-value)情境 。適合基於主鍵的點查詢和掃描。寫入和更新更加友好。
行列共存:適用於同時使用列存和行存的情境,既支援高效的點查詢,也支援OLAP分析。該模式儲存開銷及內部資料狀態同步的開銷更大。
說明更多儲存格式的詳細介紹,請參見建表概述的
orientation
參數說明。生命週期
表的生命週期,單位為秒。預設表的生命週期為永久。
說明從資料首次寫入表的時間開始計算,當到達生命週期後,表資料會在某一段時間內被清除(該時間段隨機)。
Binlog
表是否開啟Binlog。Binlog開啟時,需指定Binlog的生命週期,Binlog的生命週期預設為永久。
說明僅Hologres V0.9及以上版本支援單表層級的Binlog功能。Binlog的更多介紹,詳情請參見訂閱Hologres Binlog。
配置商務資訊。
說明表的商務資訊,僅是基於業務需求方便管理表使用,不涉及底層邏輯的實現。
參數
描述
主題
表所屬的一級檔案夾與二級檔案夾。您可基於業務用途對錶進行歸類,將同類表掛載至相同檔案夾中。
說明一級主題、二級主題僅為DataWorks上檔案夾的呈現形式,旨在方便您更好地管理表。
層級
表所屬的物理數倉分層。層級是用來定義和管理資料倉儲分層,通常分為貼源層、共用層和分析層。您可根據表的業務用途,將其掛載至合適的層級。
說明單擊表徵圖可自訂層級。詳細操作請參見表管理。
物理分類
表的物理分類,即基於業務使用視角對錶進行更詳細的分類。通常包括基礎業務層、進階業務層和其它。
說明單擊表徵圖可自訂物理分類。詳細操作請參見分類管理。
配置表結構。
參數
描述
欄位設計
添加並定義表的欄位資訊。Hologres支援的資料類型,詳情請參見資料類型匯總。
儲存設計
定義表欄位的儲存方式。
分布列:用於指定表的分布策略。資料根據分布列被分配到各個shard,後續基於shard進行計算、掃描等。
分段列:通常指定與時間類型強相關的列作為分段列。當查詢條件包含該分段列時,可快速找到相應資料對應的儲存位置。適用於日誌、流量等和時間強相關的資料。
聚簇列:用於在指定列上建立聚簇索引。Hologres會在聚簇索引上對資料進行排序,加速索引列上range和filter查詢。
字典編碼列:用於為指定列的值構建字典映射。字典編碼可將字串的比較轉為數位比較,加速group by、filter等查詢。
位元影像列:即位元編碼列,可對隱藏檔內部資料進行快速等值過濾。因此,建議您將等值filter條件的資料構建為位元編碼。
更多儲存方式的詳細介紹,請參見建表概述。
分區
定義表的分區欄位。
說明當分區表設有主鍵時,主鍵中必須包含分區欄位。
提交並發布Hologres內部表。
表結構定義完成後,您需將其提交至開發環境與生產環境,提交成功後才可在環境對應的引擎專案查看該表。
說明如果您使用的是簡單模式的工作空間,僅需將表提交至生產環境。簡單模式與標準模式工作空間介紹,詳情請參見必讀:簡單模式和標準模式的區別。
操作
描述
從開發環境載入
用於從開發環境載入開發表的相關資訊,並顯示至當前頁面。
說明僅當表已被提交至開發環境後,才可執行該操作。執行該操作後,開發環境已建立的表資訊會覆蓋當前頁面的表資訊。
提交到開發環境
提交表至DataWorks的開發環境,即在開發環境對應的Hologres資料庫建立當前表。
提交後您可在DataWorks資料開發相應商務程序(即建立表時所選的路徑)的Hologres目錄,查看該表結構。
從生產環境載入
用於從生產環境載入生產表的相關資訊,並顯示至當前頁面。
說明僅當表已被提交至生產環境後,才可執行該操作。執行該操作後,生產環境已建立的表資訊會覆蓋當前頁面的表資訊。
提交到生產環境
提交表至DataWorks的生產環境,即在生產環境對應的Hologres資料庫建立當前表。
後續步驟
Hologres內部表建立完成後,您可執行如下操作:
進行Hologres相關資料開發,詳情請參見Hologres SQL節點、Hologres文法。
通過Hologre外部表格周期性匯入MaxCompute資料至Hologres內部表:
使用命令方式匯入,詳情請參見使用SQL匯入MaxCompute的資料至Hologres。
使用DataWorks可視化方式匯入,詳情請參見一鍵MaxCompute資料同步節點。