如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接获取到公开数据集中的表,并查询这些表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。
MaxCompute开放的数据主要是阿里巴巴提供的一个淘宝展示广告点击率预估数据集,详细数据字段信息请参见天池数据集。数据存放在MaxCompute的MAXCOMPUTE_PUBLIC_DATA项目中。
声明
MaxCompute提供的公开数据集数据只能用于产品测试,数据将不做周期更新,且不保障数据准确性,因此请您勿用于正式生产。
注意事项
公开数据集通过MaxCompute的特殊授权机制实现公开授权,对所有的MaxCompute用户开放。在使用过程中,您需要注意:
公开数据集的数据均存储在一个名为MAXCOMPUTE_PUBLIC_DATA的项目中,但所有用户并未被加入到该项目中,即非项目空间成员。因此,用户需要跨项目访问数据,在编写SQL脚本时,必须在表名前指定项目名称。命令示例如下。
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.raw_sample limit 10;
说明公开数据集的数据无需付费即可查看,但是执行查询语句会产生相应计算费用。费用计算规则请参见计算费用。
由于公开数据集需要跨项目访问,您在DataWorks的数据地图中无法查找到公开数据集中的表。
公开数据集
MAXCOMPUTE_PUBLIC_DATA项目数据集中的表详细信息如下。
股票
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
股票相关表信息如下:
ods_enterprise_share_basic(股票基本信息表)
ods_enterprise_share_quarter_cashflow(季度现金流报表)
ods_enterprise_share_quarter_growth(季度业务增长数据表)
ods_enterprise_share_quarter_operation(季度财务周转数据表)
ods_enterprise_share_quarter_profit(季度利润表)
ods_enterprise_share_quarter_report(季度报表)
ods_enterprise_share_trade_h(股票价格表)
更新周期
提供固定日期分区的数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ods_enterprise_share_basic WHERE ds ='20170114';
二手房产
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
dwd_prouduct_house_basic_info_out(二手房数据)
更新周期
提供固定日期分区的数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_prouduct_house_basic_info_out WHERE ds= '20170113';
影视及票房
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
影视及票房相关表信息如下:
dwd_product_movie_basic_info(电影基本信息表)
ods_product_movie_box(票房基本信息表)
更新周期
提供固定日期分区的数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_movie_basic_info WHERE ds ='20170112' limit 10;
行政及城乡区划代码
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
dwd_product_areacode_basic_info_2020(2020年行政及城乡区划代码基本信息表)
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_areacode_basic_info_2020 limit 10;
手机号码归属地
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
dwd_product_phoneno_basic_info_2020(2020年手机号归属地基本信息表)
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020 limit 10;
原始样本骨架
从淘宝网站中随机抽样100+万用户8天内的展示广告点击日志,构成原始的样本骨架。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
raw_sample
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.raw_sample limit 10;
广告基本信息
涵盖了raw_sample表中部分广告的基本信息。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
ad_feature
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ad_feature limit 10;
用户基本信息
涵盖了raw_sample中全部用户的基本信息。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
user_profile
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.user_profile limit 10;
用户的行为日志
涵盖了raw_sample中全部用户22天内的购物行为。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
behavior_log
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.behavior_log limit 10;