全部产品
Search
文档中心

大数据开发治理平台 DataWorks:DataWorks智能数据建模

更新时间:Dec 16, 2024

随着业务的快速发展,企业数据呈几何倍增长,数据量庞大、复杂、各类数据间标准不一致,往往会出现数据难以管理的现象。DataWorks智能数据建模服务,将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化有序的管理。使企业中的数据产生更多的价值,将数据价值最大化。

前提条件

DataWorks智能数据建模为增值服务,您需要开通DataWorks智能数据建模后,才可以使用该产品功能,数据建模不同规格区别及计费标准,请参见智能数据建模计费标准

使用限制

DataWorks工作空间中,不同角色使用智能数据建模的限制如下:

  • 浏览模型详情:访客空间管理员模型设计师项目所有者等所有DataWorks工作空间中的角色均可浏览数据模型的相关信息。更多DataWorks工作空间角色,详情请参见空间级模块权限管控

  • 编辑模型信息:仅空间管理员开发运维模型设计师角色支持编辑模型信息。如果您需要执行该操作,则可授权目标用户拥有对应的角色权限。授权详情请参见空间级模块权限管控

  • 发布数据模型:仅空间管理员运维角色支持发布已创建的数据模型。如果您需要执行该操作,则可授权目标用户拥有对应的角色权限。授权详情请参见空间级模块权限管控

概述

DataWorks数据建模支持数仓规划设计、制定并沉淀企业数据标准、维度建模、数据指标定义,通过使用DataWorks数据建模,您可以将建模设计产出的维度表、明细表和汇总表物化到计算引擎中并进一步应用。

架构图

  • 数仓规划

    使用DataWorks进行数据建模时,您可以在数仓规划页面进行数据分层、业务分类、主题域和业务过程设计。

    • 数据分层

      您可以结合业务场景、数据场景综合考虑设计数仓的数据分层,DataWorks为您默认创建业界通用的五层数仓分层:

      • 数据引入层 ODS(Operational Data Store)

      • 明细数据层 DWD(Data Warehouse Detail)

      • 汇总数据层 DWS(Data Warehouse Summary)

      • 应用数据层 ADS(Application Data Service)

      • 公共维度层 DIM(Dimension)

      您也可以根据业务需求创建其他分层数据层,创建数据分层的操作请参见创建数仓分层

    • 业务分类

      当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希望能在模型设计和应用过程中快速定位本业务的数据时,您可结合真实业务情况,规划不同的业务分类,在后续建模的维度表和明细表中,将其关联到对应的业务分类中。创建业务分类的操作可参见业务分类

    • 数据域

      数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,是企业业务人员在使用数据时第一个分组入口,可以帮助企业业务人员快速的从海量的数据中快速圈定到自己的业务数据。

      数据域面向业务分析,一个数据域对应一个宏观分析领域,比如采购域、供应链域、HR域、电商业务域等。数据域的设定建议由统一组织或者人员(如数据架构师或者模型小组成员)进行管理和设定,数据域设计人员需要对企业有深刻的业务理解,能够表达对业务的解释和抽象。使用DataWorks进行数据域的规划建设的操作,请参见数据域

    • 业务过程

      业务过程是对业务活动流程的描述,例如在电商领域,加购、下单、支付等都可以是一个业务过程。进行业务效果分析时,业务过程有非常典型的应用,例如常用漏斗分析,即将购买商品的业务活动分解为浏览商品、加入购物车、下订单、付款、确认收货等业务过程,统计每个业务过程的“订单数”,将可以针对“订单数”这一指标做漏斗分析。使用DataWorks创建业务过程的操作请参见业务过程

  • 数据标准

    DataWorks数据建模支持在建模前规划制定数据标准,或在建模使用过程中根据业务情况沉淀企业业务的数据标准。通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性。

    例如,现有注册表和登录表两张表,注册表中存储了会员ID,字段名为user_id,登录表中也存储了会员ID,字段名为userid,此时针对会员ID这个数据创建统一的字段标准,例如指定数据处理的标准代码、指定字段的属性要求(例如字段的数据类型、长度、默认值等)、指定数据的度量单位。创建好字段标准后,后续在建模过程中涉及到会员ID这个字段的设置时,即可直接关联此标准,以此来保障所有会员ID字段的标准统一。

    DataWorks中字段标准的创建操作请参见字段标准

  • 维度建模

    DataWorks的数据建模理念遵循维度建模思想,使用DataWorks的维度建模功能进行数据仓库建模设计时:

    • 维度表

      结合业务的数据域的规划,提取出各业务数据域中进行数据分析时可能存在的维度,并将维度及其属性通过维度表的方式存储下来。例如,在进行电商业务数据分析时,可用的维度及其属性有:订单维度(属性包括订单ID、订单创建时间、买家ID、卖家ID等)、用户维度(性别、出生日期等)、商品维度(包括商品ID、商品名称、商品上架时间)等,此时您就可以将这些维度和属性创建为订单维度表、用户维度表、商品维度表等,将维度属性记录作为维度表的字段。后续您可将这些维度表部署到数仓中,通过ETL将实际维度数据按照维度表定义的方式进行存储,方便业务人员在后续的数据分析时进行取用。

    • 明细表

      结合业务过程的规划,梳理分析各业务过程中可能产生的实际数据,将这些实际数据字段通过明细表的方式存储下来。例如下订单这一业务过程中,您可以创建下订单这一明细表,用于记录下单过程可能产生实际数据字段,例如订单ID、订单创建时间、商品ID、数量、金额等。后续您可将这些明细表部署到数仓中,通过ETL将真实的数据按照明细表的定义方式进行汇总存储,便于业务分析时取用。

    • 汇总表

      您可以结合业务数据分析和数仓分层,将一些明细的事实数据和维度数据先进行汇总分析,创建汇总表,后续数据分析时直接取用汇总表中的数据即可,无需再取用明细表和维度表中的数据。

    • 逆向建模

      逆向建模主要用于将其他建模工具生成的模型反向建模至DataWorks的维度建模中。例如,当您已通过其他建模工具生成模型,此时,想更换为DataWorks的智能建模进行后续建模工作,则可以使用逆向建模功能。该功能无需您再次执行建模操作,即可帮助您快速将已有模型反向建模至DataWorks的维度建模中,节省了大量的时间成本。

    维度表、明细表、汇总表的创建操作请参见创建逻辑模型:维度表创建逻辑模型:明细表创建逻辑模型:汇总表。逆向建模操作,详情请参见逆向建模:物理表反向建模

  • 数据指标

    DataWorks的数据建模提供数据指标功能,为您提供统一的指标体系建立能力。

    指标体系由原子指标修饰词时间周期派生指标构成。

    • 原子指标:是基于某一业务过程下的度量,如“支付订单”业务过程中的“支付金额”。

    • 修饰词:是对指标统计业务范围的限定,如限定“支付金额”的统计范围为“母婴类产品”。

    • 时间周期:用于明确指标统计的时间范围或者时间点,如指定统计“支付金额”的时间周期为“最近7天”。

    • 派生指标:由原子指标、修饰词、时间周期组合定义。如,统计“最近7天”“母婴类产品”的“支付金额”。

    指标体系的创建操作请参见数据指标概述

数据建模的必要性

  • 海量数据的标准化管理

    企业业务越庞大数据结构就越复杂,企业数据量会随着企业业务的快速发展而迅速增长,如何结构化、有序地管理和存储数据是每个企业都将面临的一个挑战。

  • 业务数据互联互通,打破信息壁垒

    公司内部各业务、各部门之间数据独立自主形成了数据孤岛,导致决策层无法清晰、快速地了解公司各类数据情况。如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。

  • 数据标准整合,统一灵活对接

    同一数据不同描述,企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构,实现灵活对接上下游业务,是标准化管理的核心重点之一。

  • 数据价值最大化,企业利润最大化

    在最大程度上用好企业各类数据,使企业数据价值最大化,为企业提供更高效的数据服务。