全部产品
Search
文档中心

数据湖构建:生命周期管理

更新时间:Nov 12, 2024

生命周期管理支持多种类型的生命周期管理规则,通过建立不同的规则,您可以方便的管理数据湖内的数据生命周期,以便节约存储成本。本文为您介绍生命周期管理规则的基础操作。

功能说明

您可以通过生命周期管理对数据湖中的数据库、数据表配置数据管理规则,可以基于数据最后访问时间、分区值(按时间)、分区/表创建时间、分区/表最近修改时间四种规则类型,对数据定期进行存储类型转换,从而节省数据存储成本。

适用场景说明

数据湖中存在大量数据库/表的历史数据,这些历史数据随着时间变化,不再被业务使用,期望转为成本更低的低频、归档,冷归档类型存储。例如:

  • 订单表(按pt分区,如pt=20220101),业务诉求为仅分析近3年数据,而历史分区数据期望转为冷归档,降低存储使用成本。此类场景,可以配置按分区值规则类型进行定期归档。

  • 业务A的数据库A,因为业务A不再发展,历史数据暂时封存,可以配置该数据库的定期转为冷归档,将整个数据库转为冷归档。

使用限制

  • 元数据管理使用数据湖构建(DLF),且数据存储在OSS中。

  • 暂时无法支持非结构化数据管理,如有这方面需求请参考OSS的生命周期管理。

费用说明

使用生命周期管理功能,涉及两部分费用,如下:

  1. 数据湖构建(DLF)产品的生命周期管理功能,目前公测中,当前阶段免费。

  2. OSS生命周期费用说明,请参考OSS生命周期费用说明

注意事项

  1. 如果数据被转为归档、冷归档的数据将无法被计算引擎所访问,您必须手工对其进行解冻恢复才可继续使用,且解冻会产生相关费用。详细介绍参考:

    请您结合自己业务情况,充分评估后,再进行规则配置。

  2. 如果数据被转为低频的数据,被计算引擎访问时性能将会下降。请您结合自己业务情况,充分评估后,再进行规则配置。

  3. 生命规则任务,开启调度执行时,每天晚上定时执行,在第二天早上8点前生效。手动执行的任务,执行完成后即生效。

操作说明

前提条件

  1. 您已经开通OSS产品,如未开通请前往OSS控制台

  2. 生命周期管理的库表权限,受到DLF的数据权限管控,所以用户仅能对其权限内的数据库/表进行生命周期规则配置。

创建生命周期规则

您可以参考如下步骤创建一条生命周期规则。

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,选择湖管理>生命周期管理

  3. 单击新建规则,进行规则配置

    1. 填写基本信息:名称描述数据目录资源类型

      资源类型可以选择库、表两种类型,分别对应元数据库、元数据表进行生命周期规则配置。

    2. 选择规则类型,目前DLF支持以下四种规则类型。

      • 数据最后访问时间:可以实现按照数据最后访问时间来界定生命周期。如果表有分区,则按最细粒度分区最后访问时间,否则按表最后访问时间。

      • 分区值(按时间):可以实现按分区值来界定生命周期。目前只适用于一级分区中包含时间格式的表。

      • 分区/表最近修改时间:可以实现按分区/表最近修改时间来界定生命周期。如果表有分区,则按最细粒度分区最近修改时间,否则按表最近修改时间。

      • 分区/表创建时间:可以实现按分区/表创建时间来界定生命周期。如果表有分区,则按最细粒度分区创建时间,否则按表创建时间。

    3. 选择转换至低频、归档存储、冷归档存储的时间间隔。

    4. 配置规则执行机制。

      如果您希望DLF每天自动帮您执行当前规则,可打开调度开关。如果不需要每天自动执行,可建立规则后,在页面概览页手动执行。调度执行会在每天8点前执行完成。

  4. 单击下一步,选择要归档的元数据库或元数据表。

  5. 单击添加库资源,选择需要绑定的资源,支持搜索和跨页选择,单击添加

  6. 添加资源后,单击确定,即可看到资源绑定结果。

    如果绑定成功,可看到成功绑定资源数;如果绑定失败,可看到失败原因。

    说明
    • 资源类型为库时,可以绑定库资源;资源类型为表时,可以绑定表资源。

    • 表规则优先级大于库规则,如果某表已经绑定库规则,则该操作会覆盖表上的原有库规则。

    • 每个库/每个表仅支持同时绑定一个规则。

    • 每个规则最多绑定1000个资源。

    • 支持仅配置规则,后续再为规则绑定资源;直接点击保存即可。

编辑生命周期规则

如果您要对当前的生命周期规则进行修改或编辑,可以在列表页,单击右侧编辑按钮。

重要
  1. 规则被修改后,如果调度执行是开启的,其在第二天执行时才会生效。

  2. 规则被修改后,当其再次被执行,将会影响其绑定的所有资源,影响情况如下:

    • 如该数据已经被历史规则判定转为低频/归档/冷归档,当继续保持低频/归档/冷归档状态。

    • 如该数据未被转为低频/归档/冷归档,将会按照新规则生效。

查看生命周期信息

  1. 在左侧菜单栏,选择湖管理>生命周期管理

  2. 选择一条规则,单击规则ID进入,可以查看规则的当前信息。

    • 基本信息:包括规则基础信息、规则详情、执行机制。

    • 资源信息:规则所绑定的库或表信息。

    • 执行历史:规则手动执行、调度执行的历史信息。

删除生命周期规则

  1. 在左侧菜单栏,选择湖管理>生命周期管理

  2. 找到想要删除的生命周期规则,单击右侧的删除,在弹框中单击确认

说明
  • 删除生命周期规则将无法再次被手工执行,以及被调度执行。

  • 删除生命周期规则后,之前被规则影响的数据将保持当前状态。

手工执行任务

  1. 在左侧菜单栏,选择湖管理>生命周期管理

  2. 找到想要手动执行的生命周期规则,单击右侧的手动执行,仔细阅读弹出提示后,确认无误,单击确定,任务开始执行。

重要

手动执行的操作将会立即执行,并对当前绑定资源的数据产生影响,可能影响业务访问,请您在执行前提前准确评估风险。

查看任务执行记录

  1. 在左侧菜单栏,选择湖管理>生命周期管理

  2. 单击执行历史页签,可以对所有历史执行的归档任务进行查询,并查看执行日志。

  3. 单击任务名称,可以查看任务执行信息及执行日志。

表解冻

  1. 在左侧菜单栏,选择元数据>元数据管理

  2. 单击数据表页签,单击表名称。

  3. 单击存储规则页签,DLF产品上支持了表解冻,单击表解冻,会将存储类型转为标准存储。

  4. 如有更多对存储的逆向需求,可以按照以下帮助文档操作。