全部产品
Search
文档中心

数据湖构建:数据表-数据概况

更新时间:Nov 19, 2024

为您介绍数据表详情中“数据概况”的主要功能。

功能说明

在数据表详情的数据概况标签页,基于对元数据及存储数据的统计,为您提供了数据表更加详细的指标信息,比如表存储大小、表文件总数、DDL最后更新时间、数据最后更新时间、访问次数、分区存储大小、分区文件数、分区最后更新时间等信息。如果您开通了数据湖管理功能,还可以查询到存储分层分布统计和大小文件分布统计信息。

适用场景

  • 随着业务逐渐增大,期望能尽快分析出每个表中存储数据大小,以便更有针对性地进行存储优化,此时结合表存储大小可以解决此类场景。

  • 数据越来越多,期望对访问频次不高的数据进行冷归档,以节省存储成本,此时结合访问次数可以快速区分访问频次较低的表。

  • 对于长时间未更新数据的表,期望尽快找到并对其进行清理或优化,此时可以结合数据最后更新时间快速定位到相关表。

指标说明

指标名称

指标说明

指标来源说明

表存储大小

当前表中存储的所有数据大小

如托管Location给DLF,来源于对OSS数据的统计;否则来源于E-MapReduce引擎stats数据。

表文件总数

当前表中存储的所有文件数量总和

如托管Location给DLF,来源于对OSS数据的统计;否则来源于E-MapReduce引擎stats数据。

分区数量

当前表中分区总数量

从元数据统计所得。

DDL最后更新时间

表结构DDL最后更新时间

来源于对OSS数据的统计,需要托管Location给DLF。

最后数据更新时间

数据的最后更新时间

来源于对OSS数据的统计,需要托管Location给DLF。

近1天文件访问次数

该表昨天的访问次数

来源自各计算引擎,目前仅适用于E-MapReduce引擎,适用条件:

  • 仅支持EMR主版本 >=3.45.1 或 >=5.11.1以上,其他版本需要单独做gatewayhook升级。请参见EMR Gateway升级EMRHOOK组件

  • 目前仅支持Spark、Hive计算引擎。

  • 每天0:00数据重置,会有10分钟左右数据延迟。

近7天文件访问次数

该表最近7天的访问次数

近30天文件访问次数

该表最近30天的访问次数

操作说明

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,选择元数据 > 元数据管理

  3. 单击数据表页签,选择目标数据目录库名,输入搜索的表名。

  4. 单击目标数据表的表名,进入表详情页。

  5. 单击数据概况页签。