全部产品
Search
文档中心

大数据开发治理平台 DataWorks:数据治理中心概述

更新时间:Jun 21, 2024

数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,提供任务资源消耗明细、费用预估等功能,帮助您有效控制各类资源费用。

使用限制

  • 版本限制

    目前仅支持DataWorks企业版及以上版本使用数据治理中心。DataWorks各版本介绍,详情请参见DataWorks各版本详解;购买DataWorks,详情请参见购买指引

  • 地域限制

    目前仅支持华北2(北京政务云)、华东2(上海金融云)、华东2(上海)、华东1(杭州)、华北2(北京)、华南1(深圳)、西南1(成都)、中国(香港)、新加坡、美国(硅谷)、德国(法兰克福)、印度尼西亚(雅加达)地域使用数据治理中心。

  • 权限限制

    • 使用数据治理中心的用户角色主要如下,其权限限制如下。

      角色

      权限说明

      相关参考

      租户级数据治理管理员

      租户级数据治理管理员可使用全局视角查看治理评估报告、治理项问题、检查项事件等,执行相应的整改操作。

      空间管理员

      可使用工作空间视角查看治理评估报告。如您需使用该视角查看某工作空间的治理评估报告,需被授权为该空间的空间管理员。

      空间级数据治理管理员

      该角色可以查看并管理该角色所属空间的数据治理相关内容。

      说明

      该角色不能通过全局视角查看当前地域所有空间下的治理情况,且无法针对全局的治理操作(例如全局允许启用检查项)进行管控。若要允许RAM用户通过全局视角执行上述操作,请授予其租户级数据治理管理员角色。

      普通用户

      数据治理工作中实际处理待治理问题的整改人员,可使用个人视角查看检查项事件及治理项问题,并执行整改操作。如您需整改租户下存在的问题,则需被授权为该空间的成员。

      说明

      通常,除阿里云主账号和具有AliyunDataWorksFullAccess权限的RAM用户外,其他租户内成员默认均为普通用户。

      授权操作,详情请参见添加空间成员并管理成员角色权限

    • 目前仅支持阿里云主账号或具有AliyunDataWorksFullAccess权限的RAM用户(即子账号)使用数据治理中心的全部功能。如您需使用数据治理中心的全部功能,则可授予RAM用户该权限,授权详情,请参见为RAM用户授权DataWorks相关管理权限

  • 数据源限制

    目前仅支持MaxCompute、E-MapReduce和Hologres数据源。

    说明
    • 如需在数据治理中心中使用Hologres数据源,请先在数据地图中采集Hologres元数据。具体操作,请参见元数据采集

    • 当前仅华北2(北京)、华东2(上海)、华东1(杭州)和华南1(深圳)地域的数据治理中心支持Hologres数据源。

数据治理逻辑

数据治理问题检测包括数据开发任务提交发布前的检查项检测,及提交发布后的治理项检测,帮助您全方位管控当前数据存在的待治理问题。当触发检测项后,若校验不通过,则会生成相应事件(严重问题将阻塞开发流程),您需通过治理中心查看并处理该事件问题,直至校验通过后,该任务才可执行后续步骤。数据治理逻辑如下图所示。数据治理逻辑图DataWorks的工作空间分为标准模式和简单模式,不同模式工作空间下任务的开发流程存在一定差异。本文以标准模式工作空间的开发流程示例。实际流程请根据您使用的工作空间模式为准。不同模式工作空间的通用开发流程,详情请参见任务开发流程

  • 检查项检测。

    用于提交发布前的管控治理,主要校验规范性问题。在进行数据开发前,可通过检查项对数据开发功能相关的约束进行检查,当检查出存在不符合约束规范的内容时,系统会生成影响开发流程正常执行的问题事件。您可基于该事件处理暴露的问题,以便数据开发流程可以正常执行。

  • 治理项检测。

    用于提交发布后的管控治理。可使用数据治理中心的治理功能,通过全局视角个人视角工作空间视角,查看对应的待治理项。数据治理人员可以基于暴露的待治理项,快速发现并解决存在的问题,推进团队内的数据治理目标。

相关概念

  • 检查项:用于任务提交、发布等环节的事前检查,在开发流程中检测不符合数据规范的内容,生成影响开发流程正常执行的问题事件,约束、管理开发流程。

    例如,检查项可以配置为禁止使用select*语句,不允许通过create table语句创建表等。

  • 检查项事件:检查项检测出的影响开发流程正常执行的问题事件。

  • 治理项:用于任务提交、发布后的分析环节,检测系统存在的待治理优化问题。治理项包括强治理项和可选治理项,强治理项默认全局开启,且不可更改,可选治理项可根据需求选择是否启用。

    例如,治理项可以配置为任务运行时间超长连续出错节点无人访问叶子节点空跑节点等。

  • 治理项问题:治理项检测出的待治理优化问题。

  • 治理方案模板:数据治理中心提供的统一模板,配置了常见的检查项及治理项,默认为启用状态。您可直接使用该模板检测问题数据,若模板的配置项无法满足需要,则也可自定义检查项及治理项。

  • 健康分:基于治理项,按照系统预先定义的模型计算得出,用于评估治理成效。

  • 治理单元:由一个或多个工作空间组成,用于集中统计指定工作空间的整体健康分、治理项问题和检查项事件。

  • 知识库:数据治理中心提供的,针对常见检查项事件及治理项问题给出的解决方案。

数据治理流程

数据治理流程如下图所示。治理流程

  1. 配置治理工具。

    • 启用治理方案模板并自定义检测项。

      细分操作

      操作目的

      操作指导链接

      启用治理模板

      数据治理中心的整体治理操作是基于治理方案模板执行的,模板中包含了预先配置的检查项及治理项,在治理前期,您需要开启治理方案模板后,才能进行后续治理操作。当前仅支持使用默认模板,且该模板默认为启用状态。

      查看治理方案模板

      自定义检查项

      若模板中提供的检查项不符合您的需要,则可根据实际情况自定义检查项。

      • 注册检查项。

        如果您希望对扩展程序进行检测,则可以注册检测扩展程序的检查项,注册后,数据治理中心后续会检测扩展程序触发的检查项事件。

      • 关闭检查项。

        如果模板中包含您无需使用的检查项,则您可以配置指定工作空间停止使用目标检查项,停止使用后,该检查项对目标工作空间不生效,数据治理中心后续将不会检测目标工作空间中该检查项触发的检查项事件。

      配置检查项

      自定义治理项

      如果模板中包含您无需使用的治理项,则可设置排除规则,定义指定治理项在目标工作空间中不启用。排除治理项后,数据治理中心将不会检测该工作空间下对应的治理项问题。同时,在待治理列表中也不会展示该治理项问题。

      说明

      数据治理中心仅支持停用可选治理项,不支持停用强治理项,并且不支持新建治理项。

      配置治理项

    • 配置治理单元(可选)。

      DataWorks通常包含较多的工作空间,您可采用治理单元,按照业务划分,将一个或多个目标工作空间统一管理,集中统计该单元下所有工作空间的整体健康分、治理项问题及检查项事件。配置治理单元,详情请参见配置治理单元

    • 配置消息通知(可选)。

      如果您希望将待解决的治理问题通过系统消息、邮件、钉钉群消息、Webhook等方式定期发送至指定人员,方便及时查看并处理,则可配置消息通知。配置详情,请参见配置消息通知

  2. 启动检查并处理待治理问题。

    • 任务提交发布前检测。

      通过触发检查项进行检测。实现数据开发任务在提交发布环节,进行检查项触发检测、生成检查项事件、查看并处理检查项事件等主要流程,操作详情请参见处理检查项事件

    • 任务提交发布后检测。

      通过触发治理项进行检测。实现数据开发提交发布后,进行治理项触发检测、生成治理项问题、查看并处理治理项问题等主要流程,操作详情请参见处理治理项问题

    • 治理工具箱专项检查。

      您可通过治理工具箱,对目标任务或表进行全方位查看并检测相关治理问题,精准完成任务或表的治理操作,详情请参见全景查看任务全景查看表

    此过程,若检测出无效问题,则可根据需要将该类问题添加至白名单或进行下线。详情请参见无效问题添加白名单优雅下线

  3. 选择分析视角。

    • 基于使用场景:DataWorks提供数据生产、数据使用、数据管理等多维视角,助力您分析数据治理情况,高效进行数据治理工作。

    • 基于合理利用资源的目的:DataWorks提供消费和任务运行情况、MaxCompute表的数量及存储情况、资源使用概况及明细,助力数据开发者及管理者查看和分析工作空间的整体资源情况,为合理使用整体资源做辅助判断。详情请参见透视分析:按资源类型

  4. 查看治理成效。

    待治理问题处理完成后,您可以进入治理评估页面,通过治理评估报告或治理排行榜,从不同视角查看已执行的治理操作所取得的治理成效。您可以通过分析治理结果,快速识别治理项问题较多的维度及问题类别,推动治理工作的解决落地,达成治理目标。查看治理结果,详情请参见查看治理结果

    数据治理中心是基于治理项,按照定义的健康分模型进行量化评估,最终通过治理评估报告及治理排行榜中的健康分来体现当前所取得的治理成效,健康分越高,治理成效越好。健康分相关内容,详情请参见量化评估:健康分

量化评估:健康分

健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据,使用数据处理及机器学习等技术,对各类型数据进行综合处理和评估,通过个人、工作空间维度客观呈现数据资产状态的综合分值。在数据治理中,健康分体系依托不同元数据,建设了“存储、计算、研发、质量和安全”等五大健康度领域,并构建“存储健康分、计算健康分、研发健康分、质量健康分和安全健康分”五大健康分指标。健康分说明

健康分的取值范围为0至100,分值越大表示数据资产的健康度越好,较高的健康度可以帮助您更放心、高效、稳定的使用数据,保障数据生产和业务运转。数据治理中心基于治理项,按照定义的健康分模型进行量化评估,最终通过健康分的形式来体现当前账号的治理成效,健康分越高,治理成效越好。数据治理评估等级和健康分的对应关系如下。

等级

健康分

优秀

【90,100】

良好

【75,90)

及格

【60,75)

需改进

【30,60)

极差

【0,30)