全部產品
Search
文件中心

DataWorks:建立Hologres內部表

更新時間:Jun 26, 2024

Hologres可通過DDL方式建立Hologres內部表,也可使用DataWorks提供的可視化方式建立。本文為您介紹如何使用DataWorks可視化方式建立Hologres內部表。

前提條件

背景資訊

Hologres的表類型分為內部表和外部表格,其區別如下:

  • 內部表:可直接儲存MaxCompute來源資料。您可將MaxCompute源表資料同步至Hologres內部表中快速查詢分析。該方式比建立外部表格方式查詢效能更好。

  • 外部表格:不能直接儲存MaxCompute來源資料,但可將MaxCompute源表資料對應至Hologres外部表格中,加速查詢分析資料。該方式無冗餘儲存,無需匯入匯出資料,即可快速擷取查詢結果。

DataWorks作為資料加工的開發平台,提供了便捷的可視化建表方式,同時,您也可以直接使用Hologres通過DDL語句建表,詳情請參見建表概述

使用限制

當前僅華東2(上海)、華北2(北京)地區支援使用該功能。

操作步驟

  1. 進入資料開發頁面。

    登入DataWorks控制台,單擊左側導覽列的資料建模與開發 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 建立商務程序

    如果您已有商務程序,則可以忽略該步驟。

    1. 滑鼠移至上方至建立表徵圖,選擇建立商務程序

    2. 建立商務程序對話方塊,輸入業務名稱

    3. 單擊建立

  3. 建立Hologres內部表。

    1. 滑鼠移至上方至建立表徵圖,選擇建立表 > Hologres >

    2. 建立表對話方塊,選擇表類型內部表,並配置表所在的引擎、路徑及名稱等資訊。

      輸入表資訊

  4. 配置Hologres內部表。

    在Hologres內部表的編輯頁面,您可配置表的相關資訊。

    1. 配置基礎屬性。

      基礎屬性表的主要基礎屬性如下。

      參數

      描述

      儲存模式

      表在Hologres中的儲存模式。預設為列存。

      • 列存:適用於OLAP情境。適合各種複雜查詢、資料關聯、掃描、過濾和統計。寫入和更新效率低於行存表。

      • 行存:適用於 KV(key-value)情境 。適合基於主鍵的點查詢和掃描。寫入和更新更加友好。

      • 行列共存:適用於同時使用列存和行存的情境,既支援高效的點查詢,也支援OLAP分析。該模式儲存開銷及內部資料狀態同步的開銷更大。

      說明

      更多儲存格式的詳細介紹,請參見建表概述orientation參數說明。

      生命週期

      表的生命週期,單位為秒。預設表的生命週期為永久。

      說明

      從資料首次寫入表的時間開始計算,當到達生命週期後,表資料會在某一段時間內被清除(該時間段隨機)。

      Binlog

      表是否開啟Binlog。Binlog開啟時,需指定Binlog的生命週期,Binlog的生命週期預設為永久。

      說明

      僅Hologres V0.9及以上版本支援單表層級的Binlog功能。Binlog的更多介紹,詳情請參見訂閱Hologres Binlog

    2. 配置商務資訊。

      說明

      表的商務資訊,僅是基於業務需求方便管理表使用,不涉及底層邏輯的實現。

      業務描述

      參數

      描述

      主題

      表所屬的一級檔案夾與二級檔案夾。您可基於業務用途對錶進行歸類,將同類表掛載至相同檔案夾中。

      說明

      一級主題、二級主題僅為DataWorks上檔案夾的呈現形式,旨在方便您更好地管理表。

      層級

      表所屬的物理數倉分層。層級是用來定義和管理資料倉儲分層,通常分為貼源層、共用層和分析層。您可根據表的業務用途,將其掛載至合適的層級。

      說明

      單擊建立表徵圖可自訂層級。詳細操作請參見表管理

      物理分類

      表的物理分類,即基於業務使用視角對錶進行更詳細的分類。通常包括基礎業務層、進階業務層和其它。

      說明

      單擊建立表徵圖可自訂物理分類。詳細操作請參見分類管理

    3. 配置表結構。

      配置表結構

      參數

      描述

      欄位設計

      添加並定義表的欄位資訊。Hologres支援的資料類型,詳情請參見資料類型匯總

      儲存設計

      定義表欄位的儲存方式。

      • 分布列:用於指定表的分布策略。資料根據分布列被分配到各個shard,後續基於shard進行計算、掃描等。

      • 分段列:通常指定與時間類型強相關的列作為分段列。當查詢條件包含該分段列時,可快速找到相應資料對應的儲存位置。適用於日誌、流量等和時間強相關的資料。

      • 聚簇列:用於在指定列上建立聚簇索引。Hologres會在聚簇索引上對資料進行排序,加速索引列上range和filter查詢。

      • 字典編碼列:用於為指定列的值構建字典映射。字典編碼可將字串的比較轉為數位比較,加速group by、filter等查詢。

      • 位元影像列:即位元編碼列,可對隱藏檔內部資料進行快速等值過濾。因此,建議您將等值filter條件的資料構建為位元編碼。

      更多儲存方式的詳細介紹,請參見建表概述

      分區

      定義表的分區欄位。

      說明

      當分區表設有主鍵時,主鍵中必須包含分區欄位。

  5. 提交並發布Hologres內部表。

    表結構定義完成後,您需將其提交至開發環境與生產環境,提交成功後才可在環境對應的引擎專案查看該表。

    說明

    如果您使用的是簡單模式的工作空間,僅需將表提交至生產環境。簡單模式與標準模式工作空間介紹,詳情請參見必讀:簡單模式和標準模式的區別

    操作

    描述

    從開發環境載入

    用於從開發環境載入開發表的相關資訊,並顯示至當前頁面。

    說明

    僅當表已被提交至開發環境後,才可執行該操作。執行該操作後,開發環境已建立的表資訊會覆蓋當前頁面的表資訊。

    提交到開發環境

    提交表至DataWorks的開發環境,即在開發環境對應的Hologres資料庫建立當前表。

    提交後您可在DataWorks資料開發相應商務程序(即建立表時所選的路徑)的Hologres目錄,查看該表結構。

    從生產環境載入

    用於從生產環境載入生產表的相關資訊,並顯示至當前頁面。

    說明

    僅當表已被提交至生產環境後,才可執行該操作。執行該操作後,生產環境已建立的表資訊會覆蓋當前頁面的表資訊。

    提交到生產環境

    提交表至DataWorks的生產環境,即在生產環境對應的Hologres資料庫建立當前表。

後續步驟

Hologres內部表建立完成後,您可執行如下操作: