本文为您介绍如何快速使用数据-湖构建(Data Lake Formation,DLF)。
前提条件
数据湖构建采用OSS作为统一数据湖位置,您需要注册一个OSS的Bucket或指定OSS路径作为数据湖位置。详情请参见创建存储空间。
控制台概览
数据湖构建控制台概览分为2个部分,左侧为主要功能区,右侧为产品主要信息,帮助您快速上手产品。
元数据管理
元数据管理是构建高效数据湖的关键组成部分,通过集中化和系统化的元数据管理,能够显著提升数据资产的价值与可用性。您可以使用该功能管理数据湖中的数据目录、数据库和数据表。
创建数据目录
登录数据湖构建控制台。
在左侧菜单栏,选择
。单击数据目录页签,单击新建数据目录。
在输入框中输入以下内容,单击确定。
目录ID:必选,唯一标识,不可重名。
描述:可选,输入描述信息。
目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。
更多关于数据目录的操作,请参见数据目录。
创建数据库
登录数据湖管理控制台。
在左侧菜单栏,选择
。单击数据库页签,选择目标数据目录,单击新建数据库。
配置以下数据库信息,单击确定。
所属数据目录:选择所属数据目录。
数据库名称:输入数据库名称。
数据库描述:可选,输入数据库描述。
选择路径:输入数据库的位置。
创建数据表
创建完成数据库后,单击数据表页签,选择目标数据目录和库名,单击新建数据表。
配置以下数据表信息,单击确定。
数据表名称:输入数据表的名称。
所属数据目录:选择所属数据目录。
所属数据库:选择数据目录下的数据库。
数据表描述:可选,输入数据表描述。
数据存储位置:选择数据表中数据存储的位置。
格式与序列化:选择数据表的数据格式和输出格式。
分割符:可选,当数据格式选择CSV时,选择数据表的分隔符。
手动定义数据表的普通列、分区列,指定列名称、数据类型、描述等信息。
更多关于数据库、数据表的操作,请参见数据库表及函数。
元数据抽取
元数据抽取可以分析数据湖中特定格式的数据,并自动生成元数据信息。详情请参见元数据抽取。
元数据迁移
元数据迁移可以快速地将Hive Metastore的元数据迁移到数据湖构建(DLF)中。详情请参见元数据迁移。
权限管理
数据湖构建(DLF)的权限体系主要分为RAM权限和DLF数据权限控制两大类。如果您要访问DLF的页面或数据,一般都需要通过这两层权限校验,才可以正确的访问到数据资源。
存储概览及优化策略
存储概览不仅涵盖存储和元数据对象的基本信息,还包括存储趋势、存储归档分布、表格式分布以及大小文件分布等信息,帮助您快速了解当前存储资源使用情况及潜在问题,从而采取措施进行优化。
最佳实践
DLF提供了数据湖内统一的元数据管理和权限管理功能。通过与E-MapReduce、Flink和MaxCompute结合,DLF支持实现高效的元数据抽取、迁移以及数据入湖解决方案。