DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力,可便捷地连接多种数据源、支持SQL查询,并提供电子表格等多样化的数据分析工具,以满足企业日常的数据提取和分析需求。本文将通过MaxCompute引擎在SQL查询中对公共数据集进行查询和分析,介绍数据分析的基本使用。
权限说明
已拥有数据分析权限,查看角色权限列表请参见:数据分析预设角色权限列表。
角色授权,授权操作请参见:添加空间成员并管理成员角色权限。
背景信息
DataWorks的数据分析,为您提供了多种业务场景下的公共数据集。本文使用阿里电商数据集(commerce_ali_e_commerce
表),带您快速体验数据分析的相关功能。
阿里电商数据集介绍:统计淘宝不同时间段的订单详情。
表中记录了
2017年11月25日
至2017年12月3日
之间,约100万用户的随机行为(包括点击、购买、加购、喜欢)。用户数量
987,994
,商品数量4,162,024
,所有行为数量100,150,807
。
数据分析功能模块介绍,详情请参见数据分析概述。
公共数据集支持地域:华东2(上海), 华北2(北京), 华南1(深圳), 华东1(杭州), 西南1(成都), 华北3(张家口), 华北6(乌兰察布)。
前提条件
已新增MaxCompute数据源。详情请参见创建MaxCompute数据源。
操作流程
进入数据分析-SQL查询
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入SQL查询。
步骤一:数据查询
本文示例基于阿里电商数据集(commerce_ali_e_commerce
),该表统计淘宝不同时间段的订单详情,将使用SQL查询功能,对数据集做查询和排序操作,并对查询的结果进行分析和共享。
进入SQL查询。
您可以通过如下两种方式进入:
创建临时文件。
在页面左侧区域,单击我的文件右侧的图标,选择新建文件,根据界面提示创建SQL查询文件。更多创建SQL查询文件方式请参见:创建SQL查询。
说明本文使用DataWorks提供的公共数据集。首次进入SQL查询,您可在欢迎页单击
,即可生成用于统计阿里电商数据集(commerce_ali_e_commerce
)。更多公共数据集,您可前往
,在公共数据目录中查看。
选择SQL执行数据源。
在临时文件编辑页面,单击右上角的图标,选择当前SQL查询需要查询的工作空间、引擎类型及数据源。本文示例选择已创建的MaxCompute数据源。
编辑任务代码并执行。
在临时查询文件的代码编辑区域,编辑并运行如下代码。
基于公共数据集,统计淘宝不同时间段订单数量并排序。
SET odps.namespace.schema = true ; SELECT CASE WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '0点-3点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '4点-7点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '8点-11点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12点-15点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16点-19点' WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20 AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20点-23点' END AS 下单时间 ,COUNT(*) AS 订单数 FROM bigdata_public_dataset.commerce.commerce_ali_e_commerce GROUP BY 下单时间 ORDER BY COUNT(*) DESC LIMIT 100 ;
查看查询结果。
点击图标,运行SQL代码。
步骤二:数据分析
在步骤一的查询结果页,在左侧导航栏中选择图标,单击编辑图标,进入图表编辑页面。您可根据业务需求编辑图表信息。
示例一:查看不同时间段的订单数总和
业务名称修改。
双击表上方名称,可修改图表名称。
样式设置。
单击右侧样式设置,选择
,单击更换。选择
中选择详细,可以显示轴标题。也可在图表样式页签中,进行修改。
数据设置。
单击左侧数据设置,以拖拽的方式,将下单时间拖拽到Y轴,将订单数拖拽到X轴。
说明X轴默认聚合方式是求和。您也可以根据业务需求进行调整。
示例二:查看不同时间段的订单数分布
业务名称修改。
双击表上方名称,可修改图表名称。
样式设置。
单击右侧样式设置,选择
,单击更换。选择
中选择详细。
数据设置。
单击左侧数据设置,以拖拽的方式,将下单时间拖拽到类,将订单数拖拽到值。
说明值默认聚合方式是求和。在值的下拉菜单中选择
,您也可以根据业务需求进行调整。
您也可以使用DataWorks提供的电子表格进行数据的展示分析,详情请参见电子表格。
步骤三:数据分享
您可将SQL查询的结果,以电子表格的方式分享给其他用户实现数据在线流动。