全部產品

E-MapReduce：為Spark叢集設定中繼資料

更新時間：Jul 07, 2024

EMR on ACK支援使用資料湖中繼資料DLF（Data Lake Formation）和自建Hive Metastore中繼資料兩種方式，為Spark叢集設定中繼資料。本文為您介紹如何在EMR on ACK中設定Spark叢集的中繼資料。

背景資訊

因為資料湖中繼資料DLF具有高可用和易維護的特點，所以以下情境適合使用資料湖中繼資料：

當您的EMR叢集均為生產環境時，您無需維護獨立的中繼資料庫。
橫向使用多種巨量資料計算引擎時，中繼資料可以集中管理。例如，MaxCompute、Hologres和Platform for AI等。
多個EMR叢集時，可以統一管理中繼資料。

前提條件

已在E-MapReduce on ACK控制台建立Spark叢集，詳情請參見步驟一：建立叢集。
使用資料湖中繼資料DLF方式時，需要確保已開通資料湖構建DLF，詳情請參見快速入門。
使用自建Hive Metastore中繼資料方式時，需要確保已自行建立Hive Metastore服務，並且和建立的ACK叢集可以網路連通。

方式一：使用資料湖中繼資料DLF（推薦）

進入叢集詳情頁面。
1. 登入EMR on ACK控制台。
2. 在EMR on ACK頁面，單擊目的地組群的名稱。
在叢集詳情頁面，單擊資料湖構建 (DLF)後面的點擊啟用。
在啟用DLF對話方塊中，單擊OK。
完成上述配置後，向該Spark叢集提交的任務，會自動連接DLF中繼資料。

方式二：使用自建Hive Metastore中繼資料

進入叢集的配置頁面。
1. 登入EMR on ACK控制台。
2. 在EMR on ACK頁面，單擊目的地組群操作列的配置。
在配置頁簽，單擊spark-defaults.conf頁簽。
添加自訂配置。
1. 單擊上方的新增配置項。
2. 添加Key為spark.hadoop.hive.metastore.uris，Value為thrift://<自建Hive的IP地址>:9083的配置項。
  該參數表示Hive Metastore使用Thrift協議串連的URI。參數值請根據您實際情況修改。
3. 單擊確定。
4. 在彈出的對話方塊中，輸入執行原因，單擊儲存。
部署用戶端配置。
1. 單擊部署用戶端配置。
2. 在彈出的對話方塊中，輸入執行原因，單擊確定。
3. 在確認對話方塊中，單擊確定。
完成上述配置後，向該Spark叢集提交的任務，會自動連接自建的Hive Metastore。