全部产品
Search
文档中心

大数据开发治理平台 DataWorks:数据质量概述

更新时间:Aug 16, 2024

数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本,避免任务重新运行带来的资源费用浪费。

费用说明

数据质量规则运行产生的费用由两部分组成:

  • DataWorks相关收费

    根据数据质量规则实例数进行按量收费,详情请参见:数据质量计费说明

  • 非DataWorks收费

    数据质量规则校验会产生校验SQL并下推到引擎执行,数据质量规则运行将会产生引擎费用,各引擎计费细则请参考各引擎计费文档。例如,假设您使用MaxCompute引擎按量付费模式时,数据质量规则校验将会产生MaxCompute引擎费用,此费用由MaxCompute引擎侧收取,不在DataWorks账单中体现。

功能介绍

数据质量支持对常见大数据存储(MaxCompute、E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL和CDH等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。

数据质量各模块功能介绍如下:

名称

描述

数据质量大盘

数据质量大盘为您展示当前工作空间下,需要重点关注的数据质量总览指标、实例运行后触发的质量规则校验状态的趋势及分布情况、TOP质量问题表及质量问题责任人、质量规则覆盖保障情况等,帮助质量负责人快速了解工作空间数据质量整体情况,及时处理质量问题提升数据质量。

质量资产

规则列表

展示已配置的所有质量规则的列表。

规则模板库

数据质量支持自建规则模板库,对通用的自定义监控规则进行统一管理,形成自建的规则模板库,帮助您提升规则配置的效率。

规则配置

配置规则:按表(单表)

数据质量支持按表配置或按模板配置质量监控规则。

配置规则:按模板(批量)

质量运维

质量监控

质量监控列表页可以查看本工作空间下创建的所有质量监控任务。

运行记录

展示质量监控任务运行时的规则校验结果。质量监控任务运行后,您可以在运行记录页面查看详情。

质量分析

质量报告

数据质量支持用户创建报告模板,自由添加规则配置和规则运行的各项指标。根据设置的统计周期、发送时间和订阅信息,定时生成并发送报告。

注意事项

  • 如下引擎类型支持的地域存在差异:

    引擎类型

    支持地域

    E-MapReduce

    华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、东京(日本)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、美国(硅谷)

    Hologres

    华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、东京(日本)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)

    AnalyticDB PostgreSQL

    华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、东京(日本)

    AnalyticDB MySQL

    华南1(深圳)、新加坡、美国(硅谷)

    CDH

    华东2(上海)、华北2(北京)、华北3(张家口)、中国香港、德国(法兰克福)

  • E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH在进行数据质量规则配置前,需要先进行元数据采集,详情请参见元数据采集

  • E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH配置表数据质量规则后,产出表数据的调度节点需要使用网络已经连通的资源组执行才可以正常触发数据质量规则校验。

  • 一个表可以配置多个数据质量规则。

使用场景

在离线数据校验场景下,数据质量通过表配置的分区表达式来匹配节点每天产出的表分区,数据质量规则关联产出该表数据的调度节点,当任务运行完成便会触发质量规则校验(空跑任务不会触发质量规则校验),您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,并支持通过报警配置第一时间接收报警信息并处理。离线场景

配置规则

  • 创建规则:数据质量支持您按表创建数据质量规则,同时,也支持您通过内置规则模板来快速为一批表批量创建数据质量规则。详情请参见:按表配置监控规则配置规则:按模板(批量)

  • 订阅规则:规则创建完成后,您可以通过规则订阅的方式接收数据质量规则校验报警信息,支持邮件通知邮件和短信通知钉钉群机器人钉钉群机器人@ALL飞书群机器人企业微信机器人自定义Webhook等方式进行报警。

    说明

    仅DataWorks企业版版本支持使用自定义Webhook方式。

触发规则校验

运维中心中,当表关联的调度节点运行(执行节点代码逻辑)完成后,将会触发数据质量监控,从而触发质量监控中的规则校验(将会产生一条校验SQL在底层执行)。DataWorks平台将根据数据质量规则的强弱和数据质量规则校验结果决定任务是否由于质量规则校验失败而退出,并阻塞下游节点执行,防止脏数据影响范围进一步扩大。

查看校验结果

您可以通过运维中心节点运行日志和数据质量任务查询页面查看数据质量校验结果。

  • 通过运维中心节点运行日志查看

    1. 查看实例状态。当实例状态为质量监控校验失败时,可能是代码运行成功但节点产出的表数据不符合预期,数据质量强规则校验未通过导致任务失败退出并阻塞下游实例运行。实例状态

    2. 打开实例运行日志中的DQC日志,查看数据质量校验结果。详情请参见查看周期实例DQC日志

  • 通过运行记录界面查看。

    在运行记录界面,通过表或节点搜索数据质量监控的校验详情。详情请参见:查看监控任务