本实验采用DataWorks+MaxCompute产品组合,为您介绍DataWorks的基本使用。
快速体验
本案例中,数据同步和数据加工的部分任务可以通过ETL工作流模板一键导入。在导入模板后,您可以前往目标空间,并自行完成后续的数据质量监控和数据可视化操作。
仅空间管理员角色可导入ETL模板至目标工作空间,为账号授权空间管理员角色详情请参见空间级模块权限管控。
导入ETL工作流模板,详情请参见ETL工作流快速体验。
ETL工作流模板快捷入口,请点击网站用户行为分析。
实验介绍
实验背景
以网站用户画像分析为背景,通过使用DataWorks完成以下场景。
数据同步
数据加工
配置数据质量监控
数据可视化展现
目标人群
开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。
涉及产品
本案例涉及以下产品:
一站式大数据开发治理DataWorks
本案例通过DataWorks实现数据同步、加工、质量监控,以及数据可视化展现,您需提前开通该服务。详情请参见开通DataWorks服务。
云原生大数据计算服务MaxCompute
实现底层加工计算,您需提前开通该服务。详情请参见开通MaxCompute。
云数据库RDS MySQL版
本案例中用于存储用户信息数据。案例已默认提供该MySQL数据源基本信息,您无需单独开通该服务。
对象存储OSS
本案例已默认提供该OSS数据源基本信息,您无需单独开通该服务。
涉及模块
本案例使用以下DataWorks模块共同完成。
步骤 | 操作内容 | 阶段性目标 |
通过DataWorks数据集成模块,将存储在MySQL中的用户信息数据及存储在OSS中的用户访问日志数据同步至MaxCompute,并提交调度系统,结合DataWorks调度参数实现周期性增量同步。 | 学习如下内容:
| |
使用DataWorks数据开发(DataStudio)模块,将日志数据通过函数正则等方式拆解为可分析字段,并与用户信息表加工汇总产出基本的用户画像数据,并提交调度系统,结合DataWorks调度参数实现周期性数据清洗操作。 | 学习如下内容:
| |
通过DataWorks数据质量模块,对周期性ETL(Extract Transformation Load)操作过程中产生的脏数据进行监控,监控不通过则阻断任务执行,避免影响扩大。 | 学习如何基于DataWorks为任务产出的表,配置数据质量的监控规则,以保证快速感知ETL过程中产生的脏数据,有效阻断脏数据向下游蔓延。 | |
通过DataWorks数据分析模块,对最终结果表进行用户画像分析。例如,访问用户中地域分布分析、城市注册人数排行榜分析。 | 学习如何基于DataWorks将数据进行可视化展示。 |
实验预期
实操该实验后,可对DataWorks的主要功能有所了解。
实操该实验后,可在DataWorks独立完成数据同步 、数据开发和任务运维等数据岗位常见任务。
实验时长
采用在线学习的方式,预计耗时1小时。
实验费用
本案例运行可能会产生一定的费用。为避免产生过多费用,本案例在创建相关表时,生命周期已默认设置为14天,为避免长期调度产生费用,您可以在实操结束后配置任务的调度有效期,或者对任务执行冻结业务流程根节点(虚拟节点workshop_start)的操作。
学习答疑
如果您在学习过程中遇到问题,请申请加入钉钉群进行咨询。