数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据最上层实体,它可以包含多个数据库。本文为您介绍数据目录(Catalog)的基本操作。
适用场景
主要适用于元数据隔离的场景,比如多个E-MapReduce集群,每个集群绑定不同的Catalog,每个EMR集群间元数据互不可见。
基本操作
新建数据目录
登录数据湖构建控制台。
在左侧菜单栏,选择
。单击数据目录页签,单击新建数据目录。
在输入框中输入以下内容,单击确定。
目录ID:必选,唯一标识,不可重名。
描述:可选,输入描述信息。
目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。
查看数据目录
在左侧菜单栏,选择
。单击数据目录页签,可查看Catalog列表信息。
修改数据目录
在左侧菜单栏,选择
。单击数据目录页签。
在数据目录列表页面,单击操作列的编辑。
在输入框中修改以下内容,单击确定。
描述:可选,输入描述信息。
目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。
删除数据目录
请您谨慎选择删除,删除后,数据将不可恢复!
在左侧菜单栏,选择
。单击数据目录页签。
在数据目录列表页面,单击操作列的删除。
在弹出的确认框中,单击删除,完成Catalog删除。
与计算引擎的适配操作
如何修改E-MapReduce集群的数据目录
修改E-MapReduce集群绑定的DLF Catalog ID后,该集群将会指向新的Catalog ID,该变更会导致对原Catalog中的数据库、表等操作以及运行中的作业失效。请充分考虑影响后,再进行切换。
Hive引擎适配
在Hive服务的core-site.xml文件中,新增以下配置项。具体操作,请参见添加配置项。
Key
Value
dlf.catalog.id
DLF数据目录ID。
生效配置。
单击保存。保存完成后,单击部署客户端配置。
在弹出的对话框中,输入执行原因,单击确定。
重启Hive服务。
在Hive服务配置页面,单击
。在弹出的对话框中,输入执行原因,单击确定。
重启成功后,Hive状态变为良好,则Catalog ID修改完成。
Spark引擎适配
修改Spark服务的hive-site.xml文件。操作步骤,请参见Hive引擎适配。
EMR 5.6.0、3.40.0及之前版本,则无需单独对Spark做此配置修改,它使用Hive的配置,仅需修改Hive配置即可。
Presto引擎适配
修改Presto服务的hive.properties文件。操作步骤,请参见Hive引擎适配。
仅EMR 5.8.0、3.42.0及之后版本支持该功能。
Impala引擎适配
无需单独修改Impala配置,它使用Hive的配置,仅需修改Hive配置即可。