本文主要介绍湖格式管理中的自动化湖管理策略。
功能介绍
湖格式管理主要提供自动化的湖格式优化策略,目前包括的策略如下。
策略 | 所属类型 | 默认阈值 | 描述 |
AutoOptimizeByCommitVersion | OPTIMIZE | 17 | 每间隔固定的版本,触发OPTIMIZE任务。 |
AutoVacuumByCommitVersion | CLEAN | 13 | 每间隔固定的版本,触发过期文件的CLEAN任务。 |
AutoOptimizeWithZorderByCommitVersion | OPTIMIZE | 17 | 每间隔固定的版本,触发带Zorder的湖表自动优化策略。 |
AutoOptimizeForFinishedPartition | OPTIMIZE | - | 对已完成时间分区的自动优化策略。 |
AutoOptimizeForCurrentPartition | OPTIMIZE | 17 | 对当前时间分区的自动优化策略。 |
HudiAutoExecuteCompaction | COMPACTION | - | Hudi自动Compaction策略。 |
说明
目前仅支持Delta Lake数据湖格式。
场景说明
部分场景下(如Streaming)写入湖格式,会生成很多小文件,影响后续的查询效率。
湖格式表具有多版本或快照,数据目录下存在历史版本的过期数据,如不及时删除,将会造成存储资源的浪费。
操作步骤
查看优化策略
登录数据湖构建控制台。
在左侧菜单栏,单击
,可查看优化策略列表。
设置优化策略阈值
在优化策略列表页,单击操作列的设置阈值。
在弹出的对话框中,输入策略阈值,单击确定。满足阈值后,将会自动执行优化策略。
禁用优化策略
在优化策略列表页,如果该策略已启用,此时单击操作列的禁用。
在弹出的对话框中,单击确定,可以关闭优化策略。
启用优化策略
在优化策略列表页,如果该策略已禁用,单击操作列的启用。
在弹出的对话框中,单击确定,可以启用优化策略。