全部产品
Search
文档中心

大数据开发治理平台 DataWorks:快速体验

更新时间:Nov 15, 2024

DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力,可便捷地连接多种数据源、支持SQL查询,并提供电子表格等多样化的数据分析工具,以满足企业日常的数据提取和分析需求。本文将通过MaxCompute引擎在SQL查询中对公共数据集进行查询和分析,介绍数据分析的基本使用。

权限说明

背景信息

DataWorks的数据分析,为您提供了多种业务场景下的公共数据集。本文使用阿里电商数据集(commerce_ali_e_commerce表),带您快速体验数据分析的相关功能。

  • 阿里电商数据集介绍:统计淘宝不同时间段的订单详情。

    • 表中记录了2017年11月25日2017年12月3日之间,约100万用户的随机行为(包括点击、购买、加购、喜欢)。

    • 用户数量987,994,商品数量4,162,024,所有行为数量100,150,807

  • 数据分析功能模块介绍,详情请参见数据分析概述

  • 公共数据集支持地域:华东2(上海), 华北2(北京), 华南1(深圳), 华东1(杭州), 西南1(成都), 华北3(张家口), 华北6(乌兰察布)。

前提条件

已新增MaxCompute数据源。详情请参见创建MaxCompute数据源

操作流程

  1. 步骤一:数据查询

    使用SQL查询功能,通过编写SQL代码的方式,快速查询具有权限的数据源,并进行简单分析。

  2. 步骤二:数据分析

    您可基于业务需求,使用增强分析功能对数据结果进行可视化分析。

  3. 步骤三:数据分享

    您可将查询、分析的数据结果,分享至其他用户,实现数据在线流动。

进入数据分析-SQL查询

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据分析 > SQL查询,在下拉框中选择对应工作空间后单击进入SQL查询

步骤一:数据查询

本文示例基于阿里电商数据集(commerce_ali_e_commerce),该表统计淘宝不同时间段的订单详情,将使用SQL查询功能,对数据集做查询和排序操作,并对查询的结果进行分析和共享。

  1. 进入SQL查询

    您可以通过如下两种方式进入:

    • 数据分析首页的快捷入口区域,单击SQL查询,进入SQL查询页面。

    • 数据分析模块,单击左侧菜单栏的SQL查询,进入SQL查询页面。

  2. 创建临时文件

    在页面左侧区域,单击我的文件右侧的添加图标,选择新建文件,根据界面提示创建SQL查询文件。更多创建SQL查询文件方式请参见:创建SQL查询

    说明
    • 本文使用DataWorks提供的公共数据集。首次进入SQL查询,您可在欢迎页单击前往分析 > MaxCompute,即可生成用于统计阿里电商数据集(commerce_ali_e_commerce)。

    • 更多公共数据集,您可前往数据分析 > SQL查询,在公共数据目录中查看。

  3. 选择SQL执行数据源

    在临时文件编辑页面,单击右上角的image.png图标,选择当前SQL查询需要查询的工作空间、引擎类型及数据源。本文示例选择已创建的MaxCompute数据源。

  4. 编辑任务代码并执行。

    在临时查询文件的代码编辑区域,编辑并运行如下代码。编辑代码

    基于公共数据集,统计淘宝不同时间段订单数量并排序。

    SET odps.namespace.schema = true
    ;
    
    SELECT  CASE    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '0点-3点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '4点-7点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '8点-11点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12点-15点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16点-19点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20点-23点'
            END AS 下单时间
            ,COUNT(*) AS 订单数
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    GROUP BY 下单时间
    ORDER BY COUNT(*) DESC
    LIMIT   100
    ;
  5. 查看查询结果。

    点击image图标,运行SQL代码。

    结果数据

步骤二:数据分析

步骤一的查询结果页,在左侧导航栏中选择展示图标,单击image编辑图标,进入图表编辑页面。您可根据业务需求编辑图表信息。

示例一:查看不同时间段的订单数总和

  1. 业务名称修改。

    双击表上方名称,可修改图表名称。

  2. 样式设置

    1. 单击右侧样式设置,选择更换图表 > 堆叠条形图,单击更换

    2. 选择全局设置 > 图表信息中选择详细,可以显示轴标题。也可在图表样式页签中,进行修改。

  3. 数据设置

    单击左侧数据设置,以拖拽的方式,将下单时间拖拽到Y轴,将订单数拖拽到X轴

    说明

    X轴默认聚合方式是求和。您也可以根据业务需求进行调整。

示例二:查看不同时间段的订单数分布

  1. 业务名称修改。

    双击表上方名称,可修改图表名称。

  2. 样式设置

    1. 单击右侧样式设置,选择更换图表 > 饼图,单击更换

    2. 选择全局设置 > 图表信息中选择详细

  3. 数据设置

    单击左侧数据设置,以拖拽的方式,将下单时间拖拽到,将订单数拖拽到

    说明

    默认聚合方式是求和。在的下拉菜单中选择聚合 > 计数,您也可以根据业务需求进行调整。

说明

您也可以使用DataWorks提供的电子表格进行数据的展示分析,详情请参见电子表格

步骤三:数据分享

您可将SQL查询的结果,以电子表格的方式分享给其他用户实现数据在线流动。

  1. 导出查询结果。

    步骤一的查询结果页,单击右侧的image图标,在下拉菜单中选择电子表格并分享

  2. 进入电子表格页面。

    您可在电子表格页面,同步查询结果,更多电子表格操作详情请参见电子表格

  3. 分享查询结果。

    单击页面右上角分享,分享该表数据至指定用户。被分享的用户可通过URL或提取码访问该结果表。您可根据需求指定相应用户是否可编辑或仅可查看该结果表。

分享数据

后续操作