全部產品
Search
文件中心

E-MapReduce:為Spark叢集設定中繼資料

更新時間:Jul 07, 2024

EMR on ACK支援使用資料湖中繼資料DLF(Data Lake Formation)和自建Hive Metastore中繼資料兩種方式,為Spark叢集設定中繼資料。本文為您介紹如何在EMR on ACK中設定Spark叢集的中繼資料。

背景資訊

因為資料湖中繼資料DLF具有高可用和易維護的特點,所以以下情境適合使用資料湖中繼資料:

  • 當您的EMR叢集均為生產環境時,您無需維護獨立的中繼資料庫。

  • 橫向使用多種巨量資料計算引擎時,中繼資料可以集中管理。例如,MaxCompute、Hologres和Platform for AI等。

  • 多個EMR叢集時,可以統一管理中繼資料。

前提條件

  • 已在E-MapReduce on ACK控制台建立Spark叢集,詳情請參見步驟一:建立叢集

  • 使用資料湖中繼資料DLF方式時,需要確保已開通資料湖構建DLF,詳情請參見快速入門

  • 使用自建Hive Metastore中繼資料方式時,需要確保已自行建立Hive Metastore服務,並且和建立的ACK叢集可以網路連通。

方式一:使用資料湖中繼資料DLF(推薦)

  1. 進入叢集詳情頁面。

    1. 登入EMR on ACK控制台

    2. 在EMR on ACK頁面,單擊目的地組群的名稱。

  2. 叢集詳情頁面,單擊資料湖構建 (DLF)後面的點擊啟用

  3. 啟用DLF對話方塊中,單擊OK

    完成上述配置後,向該Spark叢集提交的任務,會自動連接DLF中繼資料。

方式二:使用自建Hive Metastore中繼資料

  1. 進入叢集的配置頁面。

    1. 登入EMR on ACK控制台

    2. 在EMR on ACK頁面,單擊目的地組群操作列的配置

  2. 配置頁簽,單擊spark-defaults.conf頁簽。

  3. 添加自訂配置。

    1. 單擊上方的新增配置項

    2. 添加Key為spark.hadoop.hive.metastore.uris,Value為thrift://<自建Hive的IP地址>:9083的配置項。

      該參數表示Hive Metastore使用Thrift協議串連的URI。參數值請根據您實際情況修改。

    3. 單擊確定

    4. 在彈出的對話方塊中,輸入執行原因,單擊儲存

  4. 部署用戶端配置。

    1. 單擊部署用戶端配置

    2. 在彈出的對話方塊中,輸入執行原因,單擊確定

    3. 確認對話方塊中,單擊確定

    完成上述配置後,向該Spark叢集提交的任務,會自動連接自建的Hive Metastore。