全部产品
Search
文档中心

数据湖构建:数据目录

更新时间:Nov 13, 2024

数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据最上层实体,它可以包含多个数据库。本文为您介绍数据目录(Catalog)的基本操作。

适用场景

主要适用于元数据隔离的场景,比如多个E-MapReduce集群,每个集群绑定不同的Catalog,每个EMR集群间元数据互不可见。

基本操作

新建数据目录

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,选择元数据 > 元数据管理

  3. 单击数据目录页签,单击新建数据目录

  4. 在输入框中输入以下内容,单击确定

    • 目录ID:必选,唯一标识,不可重名。

    • 描述:可选,输入描述信息。

    • 目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。

查看数据目录

  1. 在左侧菜单栏,选择元数据 > 元数据管理

  2. 单击数据目录页签,可查看Catalog列表信息。

修改数据目录

  1. 在左侧菜单栏,选择元数据 > 元数据管理

  2. 单击数据目录页签。

  3. 在数据目录列表页面,单击操作列的编辑

  4. 在输入框中修改以下内容,单击确定

    • 描述:可选,输入描述信息。

    • 目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。

删除数据目录

警告

请您谨慎选择删除,删除后,数据将不可恢复!

  1. 在左侧菜单栏,选择元数据 > 元数据管理

  2. 单击数据目录页签。

  3. 在数据目录列表页面,单击操作列的删除

  4. 在弹出的确认框中,单击删除,完成Catalog删除。

与计算引擎的适配操作

如何修改E-MapReduce集群的数据目录

重要

修改E-MapReduce集群绑定的DLF Catalog ID后,该集群将会指向新的Catalog ID,该变更会导致对原Catalog中的数据库、表等操作以及运行中的作业失效。请充分考虑影响后,再进行切换。

Hive引擎适配

  1. Hive服务的core-site.xml文件中,新增以下配置项。具体操作,请参见添加配置项

    Key

    Value

    dlf.catalog.id

    DLF数据目录ID。

  2. 生效配置。

    1. 单击保存。保存完成后,单击部署客户端配置

    2. 在弹出的对话框中,输入执行原因,单击确定

  3. 重启Hive服务。

    1. 在Hive服务配置页面,单击更多操作 > 重启

    2. 在弹出的对话框中,输入执行原因,单击确定

      重启成功后,Hive状态变为良好,则Catalog ID修改完成。

Spark引擎适配

修改Spark服务的hive-site.xml文件。操作步骤,请参见Hive引擎适配

说明

EMR 5.6.0、3.40.0及之前版本,则无需单独对Spark做此配置修改,它使用Hive的配置,仅需修改Hive配置即可。

Presto引擎适配

修改Presto服务的hive.properties文件。操作步骤,请参见Hive引擎适配

说明

仅EMR 5.8.0、3.42.0及之后版本支持该功能。

Impala引擎适配

说明

无需单独修改Impala配置,它使用Hive的配置,仅需修改Hive配置即可。