全部产品
Search
文档中心

数据湖构建:快速入门

更新时间:Nov 28, 2024

本文为您介绍如何快速使用数据-湖构建(Data Lake Formation,DLF)

前提条件

数据湖构建采用OSS作为统一数据湖位置,您需要注册一个OSS的Bucket或指定OSS路径作为数据湖位置。详情请参见创建存储空间

控制台概览

数据湖构建控制台概览分为2个部分,左侧为主要功能区,右侧为产品主要信息,帮助您快速上手产品。

元数据管理

元数据管理是构建高效数据湖的关键组成部分,通过集中化和系统化的元数据管理,能够显著提升数据资产的价值与可用性。您可以使用该功能管理数据湖中的数据目录、数据库和数据表。

创建数据目录

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,选择元数据 > 元数据管理

  3. 单击数据目录页签,单击新建数据目录

  4. 在输入框中输入以下内容,单击确定

    • 目录ID:必选,唯一标识,不可重名。

    • 描述:可选,输入描述信息。

    • 目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。

更多关于数据目录的操作,请参见数据目录

创建数据库

  1. 登录数据湖管理控制台

  2. 在左侧菜单栏,选择元数据 > 元数据管理

  3. 单击数据库页签,选择目标数据目录,单击新建数据库

  4. 配置以下数据库信息,单击确定

    • 所属数据目录选择所属数据目录。

    • 数据库名称输入数据库名称。

    • 数据库描述:可选,输入数据库描述。

    • 选择路径输入数据库的位置。

创建数据表

  1. 创建完成数据库后,单击数据表页签,选择目标数据目录库名,单击新建数据表

  2. 配置以下数据表信息,单击确定

    • 数据表名称输入数据表的名称。

    • 所属数据目录选择所属数据目录。

    • 所属数据库选择数据目录下的数据库。

    • 数据表描述可选,输入数据表描述。

    • 数据存储位置选择数据表中数据存储的位置。

    • 格式与序列化选择数据表的数据格式和输出格式。

    • 分割符:可选,当数据格式选择CSV时,选择数据表的分隔符。

    • 手动定义数据表的普通列、分区列,指定列名称、数据类型、描述等信息。

更多关于数据库、数据表的操作,请参见数据库表及函数

元数据抽取

元数据抽取可以分析数据湖中特定格式的数据,并自动生成元数据信息。详情请参见元数据抽取

元数据迁移

元数据迁移可以快速地将Hive Metastore的元数据迁移到数据湖构建(DLF)中。详情请参见元数据迁移

权限管理

数据湖构建(DLF)的权限体系主要分为RAM权限和DLF数据权限控制两大类。如果您要访问DLF的页面或数据,一般都需要通过这两层权限校验,才可以正确的访问到数据资源。

  • RAM权限:主要控制DLF所有OpenAPI的访问权限,决定RAM用户是否可以访问某些DLF OpenAPI或页面。详情请参见权限说明

  • DLF数据权限:主要控制DLF内部资源的访问和使用权限,包括数据库、数据表、数据列、函数、数据目录等,以及数据权限的操作权限。

存储概览及优化策略

存储概览不仅涵盖存储和元数据对象的基本信息,还包括存储趋势、存储归档分布、表格式分布以及大小文件分布等信息,帮助您快速了解当前存储资源使用情况及潜在问题,从而采取措施进行优化。

最佳实践

DLF提供了数据湖内统一的元数据管理和权限管理功能。通过与E-MapReduce、Flink和MaxCompute结合,DLF支持实现高效的元数据抽取、迁移以及数据入湖解决方案。