全部產品
Search
文件中心

MaxCompute:公開資料集概述

更新時間:Dec 13, 2024

如果您已開通MaxCompute服務,可以通過MaxComputeSQL分析串連查詢公開資料集中的表,以便您快速試用MaxCompute。本文為您介紹公開資料集資訊,並指導您如何通過MaxComputeSQL分析串連查詢並分析資料。

簡介

MaxCompute開放的公開資料集類別包括:GitHub公開事件數目據、國家統計資料、TPC效能測試資料、數字商業類資料、生活服務類資料、金融股票類資料。所有的資料均儲存在MaxCompute產品的公開專案BIGDATA_PUBLIC_DATASET的不同Schema中。

類別

簡介

資料集名稱

Schema名稱

GitHub公開事件數目據

大量開發人員在GitHub上進行開源專案的開發工作,並在專案的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發人員、代碼倉庫等資訊,並開放其中的公開事件,包括加星標、提交代碼等。

GitHub公開事件數目據集

github_events

國家統計資料

包括世界各國、中國各省的年度GDP資料。

國家統計資料集

national_data

TPC效能資料

TPC-DS

TPC-DS是一個面向決策支援的基準,它對決策支援系統的幾個普遍適用的方面進行建模,包括查詢和資料維護等,使巨量資料系統等新興技術能夠執行基準測試。

  • TPC-DS 10GB效能測試集

  • TPC-DS 100GB效能測試集

  • TPC-DS 1TB效能測試集

  • TPC-DS 10TB效能測試集

  • tpcds_10g

  • tpcds_100g

  • tpcds_1t

  • tpcds_10t

TPC-H

TPC-H是一個面向決策支援的基準,它由一套面向業務的即席查詢和並發資料修改組成,在巨量資料量下執行高度複雜的查詢,並回答關鍵業務問題。

  • TPC-H 10GB效能測試集

  • TPC-H 100GB效能測試集

  • TPC-H 1TB效能測試集

  • TPC-H 10TB效能測試集

  • tpch_10g

  • tpch_100g

  • tpch_1t

  • tpch_10t

TPCx-BB

TPCx-BB Express Benchmark BB(TPCx-BB)是一個巨量資料基準測試,衡量基於Hadoop的巨量資料系統的效能。它通過執行30個經常執行的分析查詢來衡量硬體和軟體組件的效能。

  • TPCx-BB 10GB效能測試集

  • TPCx-BB 100GB效能測試集

  • TPCx-BB 1TB效能測試集

  • TPCx-BB 10TB效能測試集

  • tpcbb_10g

  • tpcbb_100g

  • tpcbb_1t

  • tpcbb_10t

數字商業

包括淘寶廣告、淘寶購物、阿里電商等資料。

數字商業資料集

commerce

生活服務

包括二手房產、影視及票房、手機號碼歸屬、行政及城鄉區劃代碼資訊等資料。

生活服務資料集

life_service

金融股票

股票資訊。

金融股票資料集

finance

聲明

  • MaxCompute提供的公開資料集資料只能用於產品測試,資料將不做周期更新,且不保障資料準確性,因此請您勿用於正式生產。

  • MaxCompute公開資料集中的TPC資料產生與分析基於TPC的基準測試,並不能與發行的TPC基準測試結果相比較,因為通過MaxCompute公開資料集進行的測試並不符合TPC基準測試的所有要求。

  • MaxCompute提供的TPC效能測試資料來源於TPC,你也可以選擇自行產生TPC資料,產生TPC測試資料詳情請參見TPC官方文檔

注意事項

公開資料集對所有的MaxCompute使用者開放。在使用過程中,您需要注意:

  • 公開資料集的資料均儲存在BIGDATA_PUBLIC_DATASET專案中,但所有使用者並未被加入到該專案中,即非專案空間成員。因此需要跨專案訪問資料,在編寫SQL指令碼時,必須在表名前指定專案名稱及Schema名稱。同時未開啟租戶級Schema文法開關的使用者需要開啟Session級Schema文法,才能保證命令正常運行,命令樣本如下:

    --開啟Session級Schema文法
    set odps.namespace.schema=true; 
    --查詢表dwd_github_events_odps中的100條資料
    select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
    重要

    您無需為公開資料集的資料支付儲存費用,但是您需要支付執行查詢語句產生的相應計算費用,費用計算規則請參見計算費用

  • 由於公開資料集需要跨專案訪問,您在DataWorks的資料地圖中無法尋找到公開資料集中的表。

  • 由於公開資料集專案支援按Schema儲存,未開啟租戶層級Schema文法的使用者無法在DataWorks資料分析提供的公開資料集中直接查看,但您依舊可以通過我們提供的SQL語句進行查詢。

詳細表資訊

公開專案BIGDATA_PUBLIC_DATASET各Schema中的表詳細資料如下。

GitHub公開事件數目據

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

github_events

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

大量開發人員在GitHub上進行開源專案的開發工作,並在專案的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發人員、代碼倉庫等資訊,並開放其中的公開事件,包括加星標、提交代碼等,具體事件類型請參見GitHubEvents

MaxCompute將GH Archive提供的海量公開事件數目據進行離線處理並開發,產生以下表:

  • dwd_github_events_odps(GitHub公開事件數目據事實表)

  • dws_overview_by_repo_month(GitHub公開事件月度指標資料彙總表)

說明

表中的資料來源於GH Archive

更新周期

  • dwd_github_events_odps:T+1小時更新。

  • dws_overview_by_repo_month:T+1天更新。

查詢表結構

--開啟Session級Schema文法。
set odps.namespace.schema=true; 
--查詢dwd_github_events_odps表結構。如果想查詢其他表,替換schema名稱和表名即可。
desc bigdata_public_dataset.github_events.dwd_github_events_odps;

查詢樣本

--開啟Session級Schema文法。
SET odps.namespace.schema=true; 
--統計過去一年星標專案排行(說明:本樣本並未考慮使用者取消星標等情況)
SELECT
    repo_id,
    repo_name,
    COUNT(actor_login) total
FROM
    bigdata_public_dataset.github_events.dwd_github_events_odps
WHERE
    ds>=date_add(getdate(), -365)
    AND type = 'WatchEvent'
GROUP BY
    repo_id,
    repo_name
ORDER BY
    total DESC
LIMIT 10;

更多資料介紹及Query範例請參見GitHub公開事件數目據

國家統計資料

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

national_data

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • annual_gdp_by_province(中國年度分省GDP資料)

  • annual_gdp_by_country(世界各國年度GDP資料)

說明

annual_gdp_by_province資料來源於國家統計局,annual_gdp_by_country資料來源於國際貨幣基金組織(IMF)

更新周期

提供固定資料,不做更新。

查詢表結構

--開啟Session級Schema文法。
set odps.namespace.schema=true; 
--查詢annual_gdp_by_province表結構。如果想查詢其他表,替換schema名稱和表名即可。
desc bigdata_public_dataset.national_data.annual_gdp_by_province;

查詢樣本

--開啟Session級Schema文法。
SET odps.namespace.schema=true; 
--查看過去20年北京市GDP變化趨勢。
SELECT
    region,
    gdp,
    year
FROM
    bigdata_public_dataset.national_data.annual_gdp_by_province
WHERE
    region='北京市'
ORDER BY
    year ASC
LIMIT 20;

TPC-DS資料

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、美國(維吉尼亞)、美國(矽谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(杜拜)、華東2金融雲、華北2金融雲(邀測)、華北2阿里政務雲1、華南1金融雲

表名稱與說明

TPCDS模型類比一個全國連鎖的大型零售商的銷售系統,其中含有三種銷售渠道:store(實體店)、web(網店)、catalog(電話訂購),每種渠道使用兩張表分別類比銷售記錄和退貨記錄,同時包含商品資訊、促銷資訊、使用者資訊等維度資料表,詳情如下:

  • call_center(客戶服務中心相關資訊)

  • catalog_page(商品目錄相關資訊)

  • catalog_returns(電話訂購渠的商品退貨記錄)

  • catalog_sales(電話訂購渠的商品銷售記錄)

  • customer(客戶資訊)

  • customer_address(客戶地址資訊)

  • customer_demographics(客戶基本信用資訊)

  • date_dim(時間維度資訊)

  • household_demographics(家庭基本信用資訊)

  • income_band(收入資訊)

  • inventory(倉儲資訊)

  • item(商品資訊)

  • promotion(商品促銷資訊)

  • reason(使用者退貨原因)

  • ship_mode(商品快遞資訊)

  • store(商戶資訊)

  • store_returns(門店渠道的商品退貨記錄)

  • store_sales(門店渠道的商品銷售記錄)

  • time_dim(時間維度資訊)

  • warehouse(倉庫資訊)

  • web_page(商品網頁資訊)

  • web_returns(網頁渠道的商品退貨記錄)

  • web_sales(網頁渠道的商品銷售記錄)

  • web_site(商品網站基本資料)

說明

表中資料來源於TPC

更新周期

提供固定資料,不做更新。

查詢表結構

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--查詢tpcds_10g中的call_center表結構。如果想查詢其他規格資料集的表,替換schema名稱和表名即可。
DESC bigdata_public_dataset.tpcds_10g.call_center;

查詢樣本

SET odps.namespace.schema=TRUE; 
SELECT dt.d_year ,
       item.i_brand_id brand_id ,
       item.i_brand brand ,
       SUM(ss_sales_price) sum_agg
FROM bigdata_public_dataset.tpcds_10g.date_dim dt ,
     bigdata_public_dataset.tpcds_10g.store_sales ,
     bigdata_public_dataset.tpcds_10g.item
WHERE dt.d_date_sk = store_sales.ss_sold_date_sk
  AND store_sales.ss_item_sk = item.i_item_sk
  AND item.i_manufact_id = 190
  AND dt.d_moy = 12
GROUP BY dt.d_year ,
         item.i_brand ,
         item.i_brand_id
ORDER BY dt.d_year,
         sum_agg DESC,
         brand_id LIMIT 100;

更多不同資料規格的Query範例檔案請參考TPC-DS資料

更多資料介紹請參見官方 TPC Benchmark DS 標準規範

TPC-H資料

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

tpch_10g、tpch_100g、tpch_1t、tpch_10t

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、 中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、美國(維吉尼亞)、美國(矽谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(杜拜)、華東2金融雲、華北2金融雲(邀測)、華北2阿里政務雲1、華南1金融雲

表名稱與說明

TPC-H是用來評估線上分析處理的基準程式,主要類比了一個供應商和採購商之間的交易行為。其中含有訂單資訊、商品資訊、使用者資訊等,詳情如下:

  • customer(消費者資訊)

  • lineitem(線上商品資訊)

  • nation(國家資訊)

  • orders(訂單資訊)

  • part(零件資訊)

  • partsupp(供貨商零件資訊)

  • region(地區資訊)

  • supplier(供貨商資訊)

說明

表中資料來源於TPC

更新周期

提供固定資料,不做更新。

查詢表結構

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--查詢tpch_10g中的lineitem表結構。如果想查詢其他規格資料集的表,替換schema名稱和表名即可。
DESC bigdata_public_dataset.tpch_10g.lineitem;

查詢樣本

SET odps.namespace.schema=TRUE; 
SET odps.sql.validate.orderby.limit=FALSE;
SET odps.sql.hive.compatible=TRUE;
SELECT l_returnflag,
       l_linestatus,
       sum(l_quantity) AS sum_qty,
       sum(l_extendedprice) AS sum_base_price,
       sum(l_extendedprice * (1 - l_discount)) AS sum_disc_price,
       sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) AS sum_charge,
       avg(l_quantity) AS avg_qty,
       avg(l_extendedprice) AS avg_price,
       avg(l_discount) AS avg_disc,
       count(*) AS count_order
FROM bigdata_public_dataset.tpch_10g.lineitem
WHERE l_shipdate <= date'1998-12-01' - interval '90' DAY
GROUP BY l_returnflag,
         l_linestatus
ORDER BY l_returnflag,
         l_linestatus;

更多資料介紹及查詢範例請參見官方 TPC Benchmark H 標準規範

TPCx-BB資料

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、美國(維吉尼亞)、美國(矽谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(杜拜)、華東2金融雲、華北2金融雲(邀測)、華北2阿里政務雲1、華南1金融雲

表名稱與說明

TPCx-BB是一個巨量資料基準測試載入器,該工具類比了一個網上零售的情境,包含銷售記錄和退貨記錄,同時包含商品資訊和促銷資訊等,詳情如下:

  • customer(客戶資訊)

  • customer_address(客戶地址資訊)

  • customer_demographics(客戶基本信用資訊)

  • date_dim(時間維度資訊)

  • household_demographics(家庭基本信用資訊)

  • income_band(收入資訊)

  • inventory(倉儲資訊)

  • item(商品資訊)

  • item_marketprices(商品的競爭者價格資訊)

  • product_reviews(商品評論資訊)

  • promotion(商品促銷資訊)

  • reason(使用者退貨原因)

  • ship_mode(商品快遞資訊)

  • store(門店資訊)

  • store_returns(門店渠道的商品退貨記錄)

  • store_sales(門店渠道的商品銷售記錄)

  • time_dim(時間維度資訊)

  • warehouse(倉庫資訊)

  • web_clickstreams(網頁點擊資訊)

  • web_page(商品網頁資訊)

  • web_returns(網頁渠道的商品退貨記錄)

  • web_sales(網頁渠道的商品銷售記錄)

  • web_site(商品網站資訊)

說明

表中資料來源於TPC

更新周期

提供固定資料,不做更新。

查詢表結構

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--查詢tpcxbb_10g中的web_sales表結構。如果想查詢其他規格資料集的表,替換schema名稱和表名即可。
DESC bigdata_public_dataset.tpcxbb_10g.web_sales;

查詢樣本

SET odps.namespace.schema=TRUE; 
select * FROM bigdata_public_dataset.tpcxbb_10g.web_sales limit 100;

更多資料介紹及查詢範例請參見官方TPCx-BB標準規範

數字商業資料集

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

commerce

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • adv_raw_sample(從淘寶網站中隨機抽樣100+萬使用者8天內的展示廣告點選日誌,構成原始的樣本骨架)

  • adv_ad_feature(涵蓋了raw_sample表中部分廣告的基本資料)

  • user_profile(涵蓋了raw_sample中全部使用者的基本資料)

  • behavior_log(涵蓋了raw_sample中全部使用者22天內的購物行為(瀏覽、加購、喜歡、購買))

更新周期

提供固定資料,不再做累加式更新。

查詢表結構

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--查詢behavior_log表結構。如果想查詢其他表,替換表名即可。
DESC bigdata_public_dataset.commerce.behavior_log;

查詢樣本

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--通過behavior_log統計22天內銷量最高的三個商品類目ID。
SELECT cate,
       count(btag) sales
FROM behavior_log
WHERE btag='buy'
GROUP BY cate
ORDER BY sales DESC LIMIT 3;

生活服務資料集

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

life_service

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • movie_basic_info(電影基本資料表)

  • movie_box(票房基本資料表)

  • areacode_basic_info_2020(2020年行政及城鄉區劃代碼基本資料表)

  • phoneno_basic_info_2020(2020年手機號歸屬地基本資料表)

更新周期

  • movie_basic_info、movie_box:提供固定日期分區的資料,不再做累加式更新。

  • areacode_basic_info_2020、phoneno_basic_info_2020:提供固定資料,不再做累加式更新。

查詢表結構

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--查詢movie_box表結構。如果想查詢其他表,替換表名即可。
DESC bigdata_public_dataset.life_service.movie_box;

查詢樣本

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE;
--查詢2017年1月14日的票房排名前十的電影名稱。
SELECT moviename
FROM bigdata_public_dataset.life_service.movie_box
WHERE ds ='20170114'
ORDER BY rank ASC LIMIT 10;

金融股票資料集

專案名稱

BIGDATA_PUBLIC_DATASET

Schema名稱

finance

可用地區

華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)

表名稱與說明

  • ods_enterprise_share_basic(股票基本資料表)

  • ods_enterprise_share_quarter_cashflow(季度現金流報表)

  • ods_enterprise_share_quarter_growth(季度業務增長資料表)

  • ods_enterprise_share_quarter_operation(季度財務周轉資料表)

  • ods_enterprise_share_quarter_profit(季度利潤表)

  • ods_enterprise_share_quarter_report(季度報表)

  • ods_enterprise_share_trade_h(股票價格表)

更新周期

提供固定日期分區的資料,不再做累加式更新。

查詢表結構

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE; 
--查詢ods_enterprise_share_basic表結構。如果想查詢其他表,替換表名即可。
DESC bigdata_public_dataset.finance.ods_enterprise_share_basic;

查詢樣本

--開啟Session級Schema文法。
SET odps.namespace.schema=TRUE;
--查詢2017年1月14日的股票基本資料資料。
SELECT *
FROM bigdata_public_dataset.finance.ods_enterprise_share_basic
WHERE ds ='20170114' LIMIT 10;

使用公開資料集

前提條件

已開通MaxCompute並已建立專案,詳情請參見建立MaxCompute專案

支援的工具或平台

操作步驟(以DataWorks資料開發節點為例)

  1. 登入DataWorks控制台,建立工作空間。詳情請參見建立工作空間

  2. 綁定MaxCompute資料來源,詳情請參見建立資料來源或註冊叢集(未參加新版資料開發公測)

  3. 建立ODPS SQL節點,並輸入以下SQL樣本,詳情請參見開發ODPS SQL任務

    --查看過去20年中國各省GDP變化趨勢。
    SET odps.namespace.schema=true; 
    SET odps.sql.validate.orderby.limit = false;
    SELECT
        region,
        gdp,
        year
    FROM
        bigdata_public_dataset.national_data.annual_gdp_by_province
    ORDER BY
        year ASC;
  4. 單擊image.png,查看返回結果。image.png

說明

原公開資料集專案公開資料集參考已不再維護與更新,若您仍有需求依然可以繼續使用。

相關文檔

MaxCompute資料匯出方式介紹詳情,請參見:

  • Download:支援將資料或指定Instance的執行結果下載至本地。

  • UNLOAD:支援將資料匯出至OSS、Hologres外部儲存。