EMR on ACK支持使用数据湖元数据DLF(Data Lake Formation)和自建Hive Metastore元数据两种方式,为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。
背景信息
因为数据湖元数据DLF具有高可用和易维护的特点,所以以下场景适合使用数据湖元数据:
当您的EMR集群均为生产环境时,您无需维护独立的元数据库。
横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和人工智能平台 PAI等。
多个EMR集群时,可以统一管理元数据。
前提条件
方式一:使用数据湖元数据DLF(推荐)
进入集群详情页面。
在EMR on ACK页面,单击目标集群的名称。
在集群详情页面,单击数据湖构建 (DLF)后面的点击启用。
在启用DLF对话框中,单击OK。
完成上述配置后,向该Spark集群提交的任务,会自动连接DLF元数据。
方式二:使用自建Hive Metastore元数据
进入集群的配置页面。
在EMR on ACK页面,单击目标集群操作列的配置。
在配置页签,单击spark-defaults.conf页签。
添加自定义配置。
单击上方的新增配置项。
添加Key为spark.hadoop.hive.metastore.uris,Value为thrift://<自建Hive的IP地址>:9083的配置项。
该参数表示Hive Metastore使用Thrift协议连接的URI。参数值请根据您实际情况修改。
单击确定。
在弹出的对话框中,输入执行原因,单击保存。
部署客户端配置。
单击部署客户端配置。
在弹出的对话框中,输入执行原因,单击确定。
在确认对话框中,单击确定。
完成上述配置后,向该Spark集群提交的任务,会自动连接自建的Hive Metastore。