資料目錄(Catalog)是資料湖構建(Data Lake Formation)的中繼資料最上層實體,它可以包含多個資料庫。本文為您介紹資料目錄(Catalog)的基本操作。
適用情境
主要適用於中繼資料隔離的情境,比如多個E-MapReduce叢集,每個叢集綁定不同的Catalog,每個EMR叢集間中繼資料互不可見。
基本操作
建立資料目錄
登入資料湖構建控制台。
在左側功能表列,選擇
。單擊資料目錄頁簽,單擊建立資料目錄。
在輸入框中輸入以下內容,單擊確定。
目錄ID:必選,唯一標識,不可重名。
描述:可選,輸入描述資訊。
目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。
查看資料目錄
在左側功能表列,選擇
。單擊資料目錄頁簽,可查看Catalog列表資訊。
修改資料目錄
在左側功能表列,選擇
。單擊資料目錄頁簽。
在資料目錄列表頁面,單擊操作列的編輯。
在輸入框中修改以下內容,單擊確定。
描述:可選,輸入描述資訊。
目錄路徑:可選,輸入預設的儲存路徑,目前僅支援OSS路徑。
刪除資料目錄
請您謹慎選擇刪除,刪除後,資料將不可恢複!
在左側功能表列,選擇
。單擊資料目錄頁簽。
在資料目錄列表頁面,單擊操作列的刪除。
在彈出的確認框中,單擊刪除,完成Catalog刪除。
與計算引擎的適配操作
如何修改E-MapReduce叢集的資料目錄
修改E-MapReduce叢集綁定的DLF Catalog ID後,該叢集將會指向新的Catalog ID,該變更會導致對原Catalog中的資料庫、表等操作以及運行中的作業失效。請充分考慮影響後,再進行切換。
Hive引擎適配
在Hive服務的core-site.xml檔案中,新增以下配置項。具體操作,請參見添加配置項。
Key
Value
dlf.catalog.id
DLF資料目錄ID。
生效配置。
單擊儲存。儲存完成後,單擊部署用戶端配置。
在彈出的對話方塊中,輸入執行原因,單擊確定。
重啟Hive服務。
在Hive服務配置頁面,單擊
。在彈出的對話方塊中,輸入執行原因,單擊確定。
重啟成功後,Hive狀態變為良好,則Catalog ID修改完成。
Spark引擎適配
修改Spark服務的hive-site.xml檔案。操作步驟,請參見Hive引擎適配。
EMR 5.6.0、3.40.0及之前版本,則無需單獨對Spark做此配置修改,它使用Hive的配置,僅需修改Hive配置即可。
Presto引擎適配
修改Presto服務的hive.properties檔案。操作步驟,請參見Hive引擎適配。
僅EMR 5.8.0、3.42.0及之後版本支援該功能。
Impala引擎適配
無需單獨修改Impala配置,它使用Hive的配置,僅需修改Hive配置即可。