本文為您介紹如何快速使用資料-湖構建(Data Lake Formation,DLF)。
前提條件
資料湖構建採用OSS作為統一資料湖位置,您需要註冊一個OSS的Bucket或指定OSS路徑作為資料湖位置。詳情請參見建立儲存空間。
控制台概覽
資料湖構建控制台概覽分為2個部分,左側為主要功能區,右側為產品主要資訊,協助您快速上手產品。
中繼資料管理
中繼資料管理是構建高效資料湖的關鍵組成部分,通過集中化和系統化的中繼資料管理,能夠顯著提升資料資產的價值與可用性。您可以使用該功能管理資料湖中的資料目錄、資料庫和資料表。
建立資料目錄
登入資料湖構建控制台。
在左側功能表列,選擇
。單擊資料目錄頁簽,單擊建立資料目錄。
在輸入框中輸入以下內容,單擊確定。
目錄ID:必選,唯一標識,不可重名。
描述:可選,輸入描述資訊。
目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。
更多關於資料目錄的操作,請參見資料目錄。
建立資料庫
登入資料湖管理主控台。
在左側功能表列,選擇
。單擊資料庫頁簽,選擇目標資料目錄,單擊建立資料庫。
配置以下資料庫資訊,單擊確定。
所屬資料目錄:選擇所屬資料目錄。
資料庫名稱:輸入資料庫名稱。
資料庫描述:可選,輸入資料庫描述。
選擇路徑:輸入資料庫的位置。
建立資料表
建立完成資料庫後,單擊資料表頁簽,選擇目標資料目錄和庫名,單擊建立資料表。
配置以下資料表資訊,單擊確定。
資料表名稱:輸入資料表的名稱。
所屬資料目錄:選擇所屬資料目錄。
所屬資料庫:選擇資料目錄下的資料庫。
資料表描述:可選,輸入資料表描述。
資料存放區位置:選擇資料表中資料存放區的位置。
格式與序列化:選擇資料表的資料格式和輸出格式。
分割符:可選,當資料格式選擇CSV時,選擇資料表的分隔字元。
手動定義資料表的普通列、分區列,指定列名稱、資料類型、描述等資訊。
更多關於資料庫、資料表的操作,請參見資料庫表及函數。
中繼資料抽取
中繼資料抽取可以分析資料湖中特定格式的資料,並自動產生中繼資料資訊。詳情請參見中繼資料抽取。
中繼資料遷移
中繼資料遷移可以快速地將Hive Metastore的中繼資料遷移到資料湖構建(DLF)中。詳情請參見中繼資料遷移。
許可權管理
資料湖構建(DLF)的許可權體系主要分為RAM許可權和DLF資料許可權控制兩大類。如果您要訪問DLF的頁面或資料,一般都需要通過這兩層許可權校正,才可以正確的訪問到資料資源。
儲存概覽及最佳化策略
儲存概覽不僅涵蓋儲存和中繼資料對象的基本資料,還包括儲存趨勢、儲存歸檔分布、表格式分布以及大小檔案分布等資訊,協助您快速瞭解當前儲存資源使用方式及潛在問題,從而採取措施進行最佳化。
最佳實務
DLF提供了資料湖內統一的中繼資料管理和許可權管理功能。通過與E-MapReduce、Flink和MaxCompute結合,DLF支援實現高效的中繼資料抽取、遷移以及資料入湖解決方案。