數倉分層是結合對業務情境、實際資料、使用系統的綜合分析,對資料模型進行的整體架構設計及層級劃分。用於將不同用途的資料,歸類劃分至不同的分層,便於您更好地組織、管理、維護資料。本文為您介紹如何建立並管理數倉分層。
背景資訊
資料倉儲是所有資料的集合,包括日誌資訊、資料庫資料、文本資料、外部資料等都整合在資料倉儲中。數倉分層、資料域、業務過程、資料集市、主題域等要素,共同確定了您此次建模的邏輯數倉架構。其中,資料域及業務過程位於公用層,用於公用層資料模型的構建。資料集市及主題域位於應用程式層,用於面向具體業務應用的模型構建。
數倉分層保障了資料在進入資料倉儲之前都經過清洗和過濾,使未經處理資料不再雜亂無章,最佳化了查詢過程,有效提高了資料擷取、統計和分析的效率。同時,數倉分層實現了各種不同維度資料的關聯,使多維分析更加方便,為從多角度、多層次地資料分析和決策制定提供便捷。
規劃數倉分層
數倉分層需要結合業務情境、資料情境、系統情境進行綜合考慮設計,您可以根據實際業務需求,規劃您資料模型的分層。
DataWorks的數倉分層功能,預設為您建立了資料引入層ODS(Operational Data Store)、公用維度層DIM(Dimension)、詳細資料層DWD(Data Warehouse Detail)、摘要資料層DWS(Data Warehouse Summary)及應用資料層ADS(Application Data Service)等五層,各個分層的功能介紹如下:
資料引入層 ODS(Operational Data Store)
ODS層用於接收並處理需要儲存至資料倉儲系統的未經處理資料,其資料表的結構與未經處理資料所在的資料系統中的表結構一致,是資料倉儲的資料準備區。ODS層對未經處理資料的操作具體如下:
將原始的結構化資料增量或全量同步至資料倉儲中。
將原始的非結構化資料(例如,日誌資訊)進行結構化處理,並儲存至MaxCompute。
根據實際業務需求,記錄未經處理資料的歷史變化或對未經處理資料進行簡單的清洗。
ODS層的資料表,命名必須以
ods
開頭,並且生命週期為366天。詳細資料層 DWD(Data Warehouse Detail)
DWD層通過企業的商務活動事件構建資料模型。基於具體業務事件的特點,構建最細粒度的詳細資料表。您可以結合企業的資料使用特點,將詳細資料表的某些重要維度屬性欄位適當冗餘,即寬表化處理。同時,也可以減少詳細資料表及維度資料表的關聯,提高明細表的易用性。
摘要資料層 DWS(Data Warehouse Summary)
DWS層通過分析的主題對象構建資料模型。基於上層的應用和產品的指標需求,構建公用粒度的匯總指標事實表。
例如,從ODS層中對使用者的行為做一個初步的歸類匯總,抽象出來一些通用的維度,假設維度為時間、IP、ID,並根據這些維度統計出相關資料,比如使用者每個時間段在不同登入IP購買的商品數。則在DWS層可以進一步添加一層輕度的匯總,可以讓計算更加的高效。例如在此基礎上計算僅7天、30天、90天的行為會節省很多時間。
應用資料層 ADS(Application Data Service)
ADS層用於存放資料產品個人化的統計指標資料,輸出各種報表。例如,某電商企業,在6月9日至6月19日,杭州地區出售的各大球類商品的數量及排行情況。
公用維度層 DIM(Dimension)
DIM層使用維度構建資料模型。可基於實際業務,存放邏輯模型的維度資料表;或存放概念性模型的維度定義,通過定義維度,確定維度主鍵,添加維度屬性,關聯不同維度等操作,構建整個企業的一致性資料分析維表,協助您降低資料計算口徑和演算法不統一的風險。
對於建立的分層,您可以選擇平鋪展示或層級結構展示,如下圖所示。
展示方式 | 描述 |
平鋪展示 | 不區分層級結構,所有分層統一平鋪放置。 |
層級結構展示 | DataWorks為您提供了貼源層、公用層、應用程式層、其他等分層歸屬,您可以將建立的資料分層掛載至不同的分層歸屬。
|
分層歸屬一旦設定(包括建立時配置及編輯修改配置)則無法變更,請您合理規劃層級歸屬。
建立數倉分層
系統已預設為您建立了五個分層(ODS層、DIM層、DWD層、DWS層、ADS層),可滿足絕大部分的情境和需求,如您存在部分需要個人化處理的情境,可參見如下步驟建立新的數倉分層。
個人化處理的情境樣本:抽象出TMP(暫存資料表)層,在建立表時嚴格將表歸屬到對應分層,對每個分層設定一些標準和校正規則,譬如命名規範、生命週期設定等。
進入數倉分層。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料建模。
在智能資料建模頁面的頂部功能表列,單擊數倉規劃,預設進入數倉分層頁面。
建立分層。
單擊建立分層,在建立數倉分層對話方塊配置分層的基本資料。
參數
描述
英文縮寫
數倉分層的英文縮寫,唯一標識數倉分層。
英文名
數倉分層的英文名稱。
中文名
數倉分層的中文名稱。
負責人
建立數倉分層的負責人。預設為當前登入帳號。
分層歸屬
該參數與模型類型配合使用。用於將建立的分層劃分至不同層級,並關聯對應的模型類型。
貼源層:主要用於資料庫、日誌、訊息等基礎資料的引入。
公用層:主要完成公用資料的加工與整合,建立統一的維度,構建可複用面向分析和統計的明細事實表,以及匯總公用粒度的指標。
應用程式層:基於實際應用需求,擷取公用層加工整合後的資料,進行持續的個人化資料建設及改造。
其他:用於存放存量建立的系統預設層級及使用者自訂的層級。
系統預設層級:您需提交給技術支援人員,協助您修改該類層級的分層歸屬。
使用者自訂的層級:您需通過編輯操作,修改層級的分層歸屬。
說明如果位於其他層級的資料分層未修改層級歸屬,則後續建立模型表時無法掛載相應表至該層級。
說明分層歸屬一旦設定(包括建立時配置及編輯修改配置)則無法變更,請您合理規劃層級歸屬。
模型類型
該參數與分層歸屬配合使用。用於將對應的模型類型掛載至不同的分層歸屬。
貼源表:只能掛載至貼源層。
明細表:只能掛載至公用層。
應用表:只能掛載至應用程式層。
匯總表:只能掛載至公用層。
維度資料表、維度以及維度資料表、維度(即維度資料表和維度組合):可掛載至公用層及應用程式層。
說明模型類型一旦設定則無法變更,請您合理規劃模型類型。
已建立的數倉分層中,若中英文名稱中包含關鍵詞
dim
、DIM
、Dim
、維度
,則DataWorks預設將其模型類型變更為維度、維度資料表。
備忘
數倉分層的備忘資訊。您可輸入目標數倉分層的功能描述,方便您快速瞭解每個分層的功能作用,將對應業務資料存放至合適的分層。
最大長度為2048字元。
單擊確認,完成建立。
後續步驟
數倉分層建立完成後,您需建立數倉分層檢查器,用於規範數倉分層中表的命名規範,詳情請參見配置及使用數倉分層檢查器。