全部产品

开源大数据平台E-MapReduce：为Spark集群设置元数据

更新时间：Jan 04, 2024

EMR on ACK支持使用数据湖元数据DLF（Data Lake Formation）和自建Hive Metastore元数据两种方式，为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。

背景信息

因为数据湖元数据DLF具有高可用和易维护的特点，所以以下场景适合使用数据湖元数据：

当您的EMR集群均为生产环境时，您无需维护独立的元数据库。
横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI等。
多个EMR集群时，可以统一管理元数据。

前提条件

已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。
使用数据湖元数据DLF方式时，需要确保已开通数据湖构建DLF，详情请参见快速入门。
使用自建Hive Metastore元数据方式时，需要确保已自行创建Hive Metastore服务，并且和创建的ACK集群可以网络连通。

方式一：使用数据湖元数据DLF（推荐）

进入集群详情页面。
1. 登录EMR on ACK控制台。
2. 在EMR on ACK页面，单击目标集群的名称。
在集群详情页面，单击数据湖构建 (DLF)后面的点击启用。
在启用DLF对话框中，单击OK。
完成上述配置后，向该Spark集群提交的任务，会自动连接DLF元数据。

方式二：使用自建Hive Metastore元数据

进入集群的配置页面。
1. 登录EMR on ACK控制台。
2. 在EMR on ACK页面，单击目标集群操作列的配置。
在配置页签，单击spark-defaults.conf页签。
添加自定义配置。
1. 单击上方的新增配置项。
2. 添加Key为spark.hadoop.hive.metastore.uris，Value为thrift://<自建Hive的IP地址>:9083的配置项。
  该参数表示Hive Metastore使用Thrift协议连接的URI。参数值请根据您实际情况修改。
3. 单击确定。
4. 在弹出的对话框中，输入执行原因，单击保存。
部署客户端配置。
1. 单击部署客户端配置。
2. 在弹出的对话框中，输入执行原因，单击确定。
3. 在确认对话框中，单击确定。
完成上述配置后，向该Spark集群提交的任务，会自动连接自建的Hive Metastore。