本文主要介紹湖格式管理中的自動化湖管理原則。
功能介紹
湖格式管理主要提供自動化的湖格式最佳化策略,目前包括的策略如下。
策略 | 所屬類型 | 預設閾值 | 描述 |
AutoOptimizeByCommitVersion | OPTIMIZE | 17 | 每間隔固定的版本,觸發OPTIMIZE任務。 |
AutoVacuumByCommitVersion | CLEAN | 13 | 每間隔固定的版本,觸發到期檔案的CLEAN任務。 |
AutoOptimizeWithZorderByCommitVersion | OPTIMIZE | 17 | 每間隔固定的版本,觸發帶Zorder的湖表自動最佳化策略。 |
AutoOptimizeForFinishedPartition | OPTIMIZE | - | 對已完成時間分區的自動最佳化策略。 |
AutoOptimizeForCurrentPartition | OPTIMIZE | 17 | 對目前時間分區的自動最佳化策略。 |
HudiAutoExecuteCompaction | COMPACTION | - | Hudi自動Compaction策略。 |
說明
目前僅支援Delta Lake資料湖格式。
情境說明
部分情境下(如Streaming)寫入湖格式,會產生很多小檔案,影響後續的查詢效率。
湖格式表具有多版本或快照,資料目錄下存在歷史版本的到期資料,如不及時刪除,將會造成儲存資源的浪費。
操作步驟
查看最佳化策略
登入資料湖構建控制台。
在左側功能表列,單擊
,可查看最佳化策略列表。
設定最佳化策略閾值
在最佳化策略列表頁,單擊操作列的設定閾值。
在彈出的對話方塊中,輸入策略閾值,單擊確定。滿足閾值後,將會自動執行最佳化策略。
禁用最佳化策略
在最佳化策略列表頁,如果該策略已啟用,此時單擊操作列的禁用。
在彈出的對話方塊中,單擊確定,可以關閉最佳化策略。
啟用最佳化策略
在最佳化策略列表頁,如果該策略已禁用,單擊操作列的啟用。
在彈出的對話方塊中,單擊確定,可以啟用最佳化策略。