全部產品
Search
文件中心

Data Lake Formation:快速入門

更新時間:Nov 29, 2024

本文為您介紹如何快速使用資料-湖構建(Data Lake Formation,DLF)

前提條件

資料湖構建採用OSS作為統一資料湖位置,您需要註冊一個OSS的Bucket或指定OSS路徑作為資料湖位置。詳情請參見建立儲存空間

控制台概覽

資料湖構建控制台概覽分為2個部分,左側為主要功能區,右側為產品主要資訊,協助您快速上手產品。

中繼資料管理

中繼資料管理是構建高效資料湖的關鍵組成部分,通過集中化和系統化的中繼資料管理,能夠顯著提升資料資產的價值與可用性。您可以使用該功能管理資料湖中的資料目錄、資料庫和資料表。

建立資料目錄

  1. 登入資料湖構建控制台

  2. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  3. 單擊資料目錄頁簽,單擊建立資料目錄

  4. 在輸入框中輸入以下內容,單擊確定

    • 目錄ID:必選,唯一標識,不可重名。

    • 描述:可選,輸入描述資訊。

    • 目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。

更多關於資料目錄的操作,請參見資料目錄

建立資料庫

  1. 登入資料湖管理主控台

  2. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  3. 單擊資料庫頁簽,選擇目標資料目錄,單擊建立資料庫

  4. 配置以下資料庫資訊,單擊確定

    • 所屬資料目錄選擇所屬資料目錄。

    • 資料庫名稱輸入資料庫名稱。

    • 資料庫描述:可選,輸入資料庫描述。

    • 選擇路徑輸入資料庫的位置。

建立資料表

  1. 建立完成資料庫後,單擊資料表頁簽,選擇目標資料目錄庫名,單擊建立資料表

  2. 配置以下資料表資訊,單擊確定

    • 資料表名稱輸入資料表的名稱。

    • 所屬資料目錄選擇所屬資料目錄。

    • 所屬資料庫選擇資料目錄下的資料庫。

    • 資料表描述可選,輸入資料表描述。

    • 資料存放區位置選擇資料表中資料存放區的位置。

    • 格式與序列化選擇資料表的資料格式和輸出格式。

    • 分割符:可選,當資料格式選擇CSV時,選擇資料表的分隔字元。

    • 手動定義資料表的普通列、分區列,指定列名稱、資料類型、描述等資訊。

更多關於資料庫、資料表的操作,請參見資料庫表及函數

中繼資料抽取

中繼資料抽取可以分析資料湖中特定格式的資料,並自動產生中繼資料資訊。詳情請參見中繼資料抽取

中繼資料遷移

中繼資料遷移可以快速地將Hive Metastore的中繼資料遷移到資料湖構建(DLF)中。詳情請參見中繼資料遷移

許可權管理

資料湖構建(DLF)的許可權體系主要分為RAM許可權和DLF資料許可權控制兩大類。如果您要訪問DLF的頁面或資料,一般都需要通過這兩層許可權校正,才可以正確的訪問到資料資源。

  • RAM許可權:主要控制DLF所有OpenAPI的存取權限,決定RAM使用者是否可以訪問某些DLF OpenAPI或頁面。詳情請參見許可權說明

  • DLF資料許可權:主要控制DLF內部資源的訪問和使用許可權,包括資料庫、資料表、資料列、函數、資料目錄等,以及資料許可權的操作許可權。

儲存概覽及最佳化策略

儲存概覽不僅涵蓋儲存和中繼資料對象的基本資料,還包括儲存趨勢、儲存歸檔分布、表格式分布以及大小檔案分布等資訊,協助您快速瞭解當前儲存資源使用方式及潛在問題,從而採取措施進行最佳化。

最佳實務

DLF提供了資料湖內統一的中繼資料管理和許可權管理功能。通過與E-MapReduce、Flink和MaxCompute結合,DLF支援實現高效的中繼資料抽取、遷移以及資料入湖解決方案。