全部產品
Search
文件中心

DataWorks:建立數倉分層

更新時間:Sep 06, 2024

數倉分層是結合對業務情境、實際資料、使用系統的綜合分析,對資料模型進行的整體架構設計及層級劃分。用於將不同用途的資料,歸類劃分至不同的分層,便於您更好地組織、管理、維護資料。本文為您介紹如何建立並管理數倉分層。

背景資訊

資料倉儲是所有資料的集合,包括日誌資訊、資料庫資料、文本資料、外部資料等都整合在資料倉儲中。數倉分層、資料域、業務過程、資料集市、主題域等要素,共同確定了您此次建模的邏輯數倉架構。其中,資料域及業務過程位於公用層,用於公用層資料模型的構建。資料集市及主題域位於應用程式層,用於面向具體業務應用的模型構建。

數倉分層保障了資料在進入資料倉儲之前都經過清洗和過濾,使未經處理資料不再雜亂無章,最佳化了查詢過程,有效提高了資料擷取、統計和分析的效率。同時,數倉分層實現了各種不同維度資料的關聯,使多維分析更加方便,為從多角度、多層次地資料分析和決策制定提供便捷。

規劃數倉分層

數倉分層需要結合業務情境、資料情境、系統情境進行綜合考慮設計,您可以根據實際業務需求,規劃您資料模型的分層。

DataWorks的數倉分層功能,預設為您建立了資料引入層ODS(Operational Data Store)公用維度層DIM(Dimension)詳細資料層DWD(Data Warehouse Detail)摘要資料層DWS(Data Warehouse Summary)應用資料層ADS(Application Data Service)等五層,各個分層的功能介紹如下:

  • 資料引入層 ODS(Operational Data Store)

    ODS層用於接收並處理需要儲存至資料倉儲系統的未經處理資料,其資料表的結構與未經處理資料所在的資料系統中的表結構一致,是資料倉儲的資料準備區。ODS層對未經處理資料的操作具體如下:

    • 將原始的結構化資料增量或全量同步至資料倉儲中。

    • 將原始的非結構化資料(例如,日誌資訊)進行結構化處理,並儲存至MaxCompute。

    • 根據實際業務需求,記錄未經處理資料的歷史變化或對未經處理資料進行簡單的清洗。

    ODS層的資料表,命名必須以ods開頭,並且生命週期為366天。

  • 詳細資料層 DWD(Data Warehouse Detail)

    DWD層通過企業的商務活動事件構建資料模型。基於具體業務事件的特點,構建最細粒度的詳細資料表。您可以結合企業的資料使用特點,將詳細資料表的某些重要維度屬性欄位適當冗餘,即寬表化處理。同時,也可以減少詳細資料表及維度資料表的關聯,提高明細表的易用性。

  • 摘要資料層 DWS(Data Warehouse Summary)

    DWS層通過分析的主題對象構建資料模型。基於上層的應用和產品的指標需求,構建公用粒度的匯總指標事實表。

    例如,從ODS層中對使用者的行為做一個初步的歸類匯總,抽象出來一些通用的維度,假設維度為時間IPID,並根據這些維度統計出相關資料,比如使用者每個時間段在不同登入IP購買的商品數。則在DWS層可以進一步添加一層輕度的匯總,可以讓計算更加的高效。例如在此基礎上計算僅7天、30天、90天的行為會節省很多時間。

  • 應用資料層 ADS(Application Data Service)

    ADS層用於存放資料產品個人化的統計指標資料,輸出各種報表。例如,某電商企業,在6月9日至6月19日,杭州地區出售的各大球類商品的數量及排行情況。

  • 公用維度層 DIM(Dimension)

    DIM層使用維度構建資料模型。可基於實際業務,存放邏輯模型的維度資料表;或存放概念性模型的維度定義,通過定義維度,確定維度主鍵,添加維度屬性,關聯不同維度等操作,構建整個企業的一致性資料分析維表,協助您降低資料計算口徑和演算法不統一的風險。

對於建立的分層,您可以選擇平鋪展示層級結構展示,如下圖所示。數倉分層

展示方式

描述

平鋪展示

不區分層級結構,所有分層統一平鋪放置。

層級結構展示

DataWorks為您提供了貼源層公用層應用程式層其他等分層歸屬,您可以將建立的資料分層掛載至不同的分層歸屬。

  • 貼源層:主要用於資料庫、日誌、訊息等基礎資料的引入。

  • 公用層:主要完成公用資料的加工與整合,建立統一的維度,構建可複用面向分析和統計的明細事實表,以及匯總公用粒度的指標。

  • 應用程式層:基於實際應用需求,擷取公用層加工整合後的資料,進行持續的個人化資料建設及改造。

  • 其他:用於存放存量建立的系統預設層級及使用者自訂的層級。

    • 系統預設層級:您需提交給技術支援人員,協助您修改該類層級的分層歸屬

    • 使用者自訂的層級:您需通過編輯操作,修改層級的分層歸屬

    說明

    如果位於其他層級的資料分層未修改層級歸屬,則後續建立模型表時無法掛載相應表至該層級。

說明

分層歸屬一旦設定(包括建立時配置及編輯修改配置)則無法變更,請您合理規劃層級歸屬。

建立數倉分層

系統已預設為您建立了五個分層(ODS層、DIM層、DWD層、DWS層、ADS層),可滿足絕大部分的情境和需求,如您存在部分需要個人化處理的情境,可參見如下步驟建立新的數倉分層。

個人化處理的情境樣本:抽象出TMP(暫存資料表)層,在建立表時嚴格將表歸屬到對應分層,對每個分層設定一些標準和校正規則,譬如命名規範、生命週期設定等。

  1. 進入數倉分層

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料建模與開發 > 資料建模,在下拉框中選擇對應工作空間後單擊進入資料建模

    2. 智能資料建模頁面的頂部功能表列,單擊數倉規劃,預設進入數倉分層頁面。

  2. 建立分層。

    1. 單擊建立分層,在建立數倉分層對話方塊配置分層的基本資料。建立數倉分層

      參數

      描述

      英文縮寫

      數倉分層的英文縮寫,唯一標識數倉分層。

      英文名

      數倉分層的英文名稱。

      中文名

      數倉分層的中文名稱。

      負責人

      建立數倉分層的負責人。預設為當前登入帳號。

      分層歸屬

      該參數與模型類型配合使用。用於將建立的分層劃分至不同層級,並關聯對應的模型類型。

      • 貼源層:主要用於資料庫、日誌、訊息等基礎資料的引入。

      • 公用層:主要完成公用資料的加工與整合,建立統一的維度,構建可複用面向分析和統計的明細事實表,以及匯總公用粒度的指標。

      • 應用程式層:基於實際應用需求,擷取公用層加工整合後的資料,進行持續的個人化資料建設及改造。

      • 其他:用於存放存量建立的系統預設層級及使用者自訂的層級。

        • 系統預設層級:您需提交給技術支援人員,協助您修改該類層級的分層歸屬

        • 使用者自訂的層級:您需通過編輯操作,修改層級的分層歸屬

        說明

        如果位於其他層級的資料分層未修改層級歸屬,則後續建立模型表時無法掛載相應表至該層級。

      說明

      分層歸屬一旦設定(包括建立時配置及編輯修改配置)則無法變更,請您合理規劃層級歸屬。

      模型類型

      該參數與分層歸屬配合使用。用於將對應的模型類型掛載至不同的分層歸屬。

      • 貼源表:只能掛載至貼源層

      • 明細表:只能掛載至公用層

      • 應用表:只能掛載至應用程式層

      • 匯總表:只能掛載至公用層

      • 維度資料表維度以及維度資料表、維度(即維度資料表和維度組合):可掛載至公用層應用程式層

      說明
      • 模型類型一旦設定則無法變更,請您合理規劃模型類型。

      • 已建立的數倉分層中,若中英文名稱中包含關鍵詞dimDIMDim維度,則DataWorks預設將其模型類型變更為維度、維度資料表

      備忘

      數倉分層的備忘資訊。您可輸入目標數倉分層的功能描述,方便您快速瞭解每個分層的功能作用,將對應業務資料存放至合適的分層。

      最大長度為2048字元。

  3. 單擊確認,完成建立。

後續步驟

數倉分層建立完成後,您需建立數倉分層檢查器,用於規範數倉分層中表的命名規範,詳情請參見配置及使用數倉分層檢查器