全部產品
Search
文件中心

Data Lake Formation:資料目錄

更新時間:Nov 14, 2024

資料目錄(Catalog)是資料湖構建(Data Lake Formation)的中繼資料最上層實體,它可以包含多個資料庫。本文為您介紹資料目錄(Catalog)的基本操作。

適用情境

主要適用於中繼資料隔離的情境,比如多個E-MapReduce叢集,每個叢集綁定不同的Catalog,每個EMR叢集間中繼資料互不可見。

基本操作

建立資料目錄

  1. 登入資料湖構建控制台

  2. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  3. 單擊資料目錄頁簽,單擊建立資料目錄

  4. 在輸入框中輸入以下內容,單擊確定

    • 目錄ID:必選,唯一標識,不可重名。

    • 描述:可選,輸入描述資訊。

    • 目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。

查看資料目錄

  1. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  2. 單擊資料目錄頁簽,可查看Catalog列表資訊。

修改資料目錄

  1. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  2. 單擊資料目錄頁簽。

  3. 在資料目錄列表頁面,單擊操作列的編輯

  4. 在輸入框中修改以下內容,單擊確定

    • 描述:可選,輸入描述資訊。

    • 目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。

刪除資料目錄

警告

請您謹慎選擇刪除,刪除後,資料將不可恢複!

  1. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  2. 單擊資料目錄頁簽。

  3. 在資料目錄列表頁面,單擊操作列的刪除

  4. 在彈出的確認框中,單擊刪除,完成Catalog刪除。

與計算引擎的適配操作

如何修改E-MapReduce叢集的資料目錄

重要

修改E-MapReduce叢集綁定的DLF Catalog ID後,該叢集將會指向新的Catalog ID,該變更會導致對原Catalog中的資料庫、表等操作以及運行中的作業失效。請充分考慮影響後,再進行切換。

Hive引擎適配

  1. Hive服務的core-site.xml檔案中,新增以下配置項。具體操作,請參見添加配置項

    Key

    Value

    dlf.catalog.id

    DLF資料目錄ID。

  2. 生效配置。

    1. 單擊儲存。儲存完成後,單擊部署用戶端配置

    2. 在彈出的對話方塊中,輸入執行原因,單擊確定

  3. 重啟Hive服務。

    1. 在Hive服務配置頁面,單擊更多操作 > 重啟

    2. 在彈出的對話方塊中,輸入執行原因,單擊確定

      重啟成功後,Hive狀態變為良好,則Catalog ID修改完成。

Spark引擎適配

修改Spark服務的hive-site.xml檔案。操作步驟,請參見Hive引擎適配

說明

EMR 5.6.0、3.40.0及之前版本,則無需單獨對Spark做此配置修改,它使用Hive的配置,僅需修改Hive配置即可。

Presto引擎適配

修改Presto服務的hive.properties檔案。操作步驟,請參見Hive引擎適配

說明

僅EMR 5.8.0、3.42.0及之後版本支援該功能。

Impala引擎適配

說明

無需單獨修改Impala配置,它使用Hive的配置,僅需修改Hive配置即可。