全部產品
Search
文件中心

Data Lake Formation:湖格式管理

更新時間:Oct 29, 2024

本文主要介紹湖格式管理中的自動化湖管理原則。

功能介紹

湖格式管理主要提供自動化的湖格式最佳化策略,目前包括的策略如下。

策略

所屬類型

預設閾值

描述

AutoOptimizeByCommitVersion

OPTIMIZE

17

每間隔固定的版本,觸發OPTIMIZE任務。

AutoVacuumByCommitVersion

CLEAN

13

每間隔固定的版本,觸發到期檔案的CLEAN任務。

AutoOptimizeWithZorderByCommitVersion

OPTIMIZE

17

每間隔固定的版本,觸發帶Zorder的湖表自動最佳化策略。

AutoOptimizeForFinishedPartition

OPTIMIZE

-

對已完成時間分區的自動最佳化策略。

AutoOptimizeForCurrentPartition

OPTIMIZE

17

對目前時間分區的自動最佳化策略。

HudiAutoExecuteCompaction

COMPACTION

-

Hudi自動Compaction策略。

說明

目前僅支援Delta Lake資料湖格式。

情境說明

  1. 部分情境下(如Streaming)寫入湖格式,會產生很多小檔案,影響後續的查詢效率。

  2. 湖格式表具有多版本或快照,資料目錄下存在歷史版本的到期資料,如不及時刪除,將會造成儲存資源的浪費

操作步驟

查看最佳化策略

  1. 登入資料湖構建控制台

  2. 在左側功能表列,單擊湖管理 > 湖格式管理,可查看最佳化策略列表。

設定最佳化策略閾值

  1. 在最佳化策略列表頁,單擊操作列的設定閾值

  2. 在彈出的對話方塊中,輸入策略閾值,單擊確定。滿足閾值後,將會自動執行最佳化策略。

禁用最佳化策略

  1. 在最佳化策略列表頁,如果該策略已啟用,此時單擊操作列的禁用

  2. 在彈出的對話方塊中,單擊確定,可以關閉最佳化策略。

啟用最佳化策略

  1. 在最佳化策略列表頁,如果該策略已禁用,單擊操作列的啟用

  2. 在彈出的對話方塊中,單擊確定,可以啟用最佳化策略。