如果您已開通MaxCompute服務,可以通過MaxComputeSQL分析串連查詢公開資料集中的表,以便您快速試用MaxCompute。本文為您介紹公開資料集資訊,並指導您如何通過MaxComputeSQL分析串連查詢並分析資料。
簡介
MaxCompute開放的公開資料集類別包括:GitHub公開事件數目據、國家統計資料、TPC效能測試資料、數字商業類資料、生活服務類資料、金融股票類資料。所有的資料均儲存在MaxCompute產品的公開專案BIGDATA_PUBLIC_DATASET的不同Schema中。
類別 | 簡介 | 資料集名稱 | Schema名稱 | |
GitHub公開事件數目據 | 大量開發人員在GitHub上進行開源專案的開發工作,並在專案的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發人員、代碼倉庫等資訊,並開放其中的公開事件,包括加星標、提交代碼等。 | GitHub公開事件數目據集 | github_events | |
國家統計資料 | 包括世界各國、中國各省的年度GDP資料。 | 國家統計資料集 | national_data | |
TPC效能資料 | TPC-DS | TPC-DS是一個面向決策支援的基準,它對決策支援系統的幾個普遍適用的方面進行建模,包括查詢和資料維護等,使巨量資料系統等新興技術能夠執行基準測試。 |
|
|
TPC-H | TPC-H是一個面向決策支援的基準,它由一套面向業務的即席查詢和並發資料修改組成,在巨量資料量下執行高度複雜的查詢,並回答關鍵業務問題。 |
|
| |
TPCx-BB | TPCx-BB Express Benchmark BB(TPCx-BB)是一個巨量資料基準測試,衡量基於Hadoop的巨量資料系統的效能。它通過執行30個經常執行的分析查詢來衡量硬體和軟體組件的效能。 |
|
| |
數字商業 | 包括淘寶廣告、淘寶購物、阿里電商等資料。 | 數字商業資料集 | commerce | |
生活服務 | 包括二手房產、影視及票房、手機號碼歸屬、行政及城鄉區劃代碼資訊等資料。 | 生活服務資料集 | life_service | |
金融股票 | 股票資訊。 | 金融股票資料集 | finance |
聲明
MaxCompute提供的公開資料集資料只能用於產品測試,資料將不做周期更新,且不保障資料準確性,因此請您勿用於正式生產。
MaxCompute公開資料集中的TPC資料產生與分析基於TPC的基準測試,並不能與發行的TPC基準測試結果相比較,因為通過MaxCompute公開資料集進行的測試並不符合TPC基準測試的所有要求。
MaxCompute提供的TPC效能測試資料來源於TPC,你也可以選擇自行產生TPC資料,產生TPC測試資料詳情請參見TPC官方文檔。
注意事項
公開資料集對所有的MaxCompute使用者開放。在使用過程中,您需要注意:
公開資料集的資料均儲存在
BIGDATA_PUBLIC_DATASET
專案中,但所有使用者並未被加入到該專案中,即非專案空間成員。因此需要跨專案訪問資料,在編寫SQL指令碼時,必須在表名前指定專案名稱及Schema名稱。同時未開啟租戶級Schema文法開關的使用者需要開啟Session級Schema文法,才能保證命令正常運行,命令樣本如下:--開啟Session級Schema文法 set odps.namespace.schema=true; --查詢表dwd_github_events_odps中的100條資料 select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
重要您無需為公開資料集的資料支付儲存費用,但是您需要支付執行查詢語句產生的相應計算費用,費用計算規則請參見計算費用。
由於公開資料集需要跨專案訪問,您在DataWorks的資料地圖中無法尋找到公開資料集中的表。
由於公開資料集專案支援按Schema儲存,未開啟租戶層級Schema文法的使用者無法在DataWorks資料分析提供的公開資料集中直接查看,但您依舊可以通過我們提供的SQL語句進行查詢。
詳細表資訊
公開專案BIGDATA_PUBLIC_DATASET各Schema中的表詳細資料如下。
GitHub公開事件數目據
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | github_events |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 | 大量開發人員在GitHub上進行開源專案的開發工作,並在專案的開發過程中產生海量事件。GitHub會記錄每次事件的類型及詳情、開發人員、代碼倉庫等資訊,並開放其中的公開事件,包括加星標、提交代碼等,具體事件類型請參見GitHubEvents。 MaxCompute將GH Archive提供的海量公開事件數目據進行離線處理並開發,產生以下表:
說明 表中的資料來源於GH Archive。 |
更新周期 |
|
查詢表結構 |
|
查詢樣本 |
|
更多資料介紹及Query範例請參見GitHub公開事件數目據。 |
國家統計資料
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | national_data |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
說明 annual_gdp_by_province資料來源於國家統計局,annual_gdp_by_country資料來源於國際貨幣基金組織(IMF)。 |
更新周期 | 提供固定資料,不做更新。 |
查詢表結構 |
|
查詢樣本 |
|
TPC-DS資料
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、美國(維吉尼亞)、美國(矽谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(杜拜)、華東2金融雲、華北2金融雲(邀測)、華北2阿里政務雲1、華南1金融雲 |
表名稱與說明 | TPCDS模型類比一個全國連鎖的大型零售商的銷售系統,其中含有三種銷售渠道:store(實體店)、web(網店)、catalog(電話訂購),每種渠道使用兩張表分別類比銷售記錄和退貨記錄,同時包含商品資訊、促銷資訊、使用者資訊等維度資料表,詳情如下:
說明 表中資料來源於TPC。 |
更新周期 | 提供固定資料,不做更新。 |
查詢表結構 |
|
查詢樣本 |
|
更多不同資料規格的Query範例檔案請參考TPC-DS資料。 更多資料介紹請參見官方 TPC Benchmark DS 標準規範。 |
TPC-H資料
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | tpch_10g、tpch_100g、tpch_1t、tpch_10t |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、 中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、美國(維吉尼亞)、美國(矽谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(杜拜)、華東2金融雲、華北2金融雲(邀測)、華北2阿里政務雲1、華南1金融雲 |
表名稱與說明 | TPC-H是用來評估線上分析處理的基準程式,主要類比了一個供應商和採購商之間的交易行為。其中含有訂單資訊、商品資訊、使用者資訊等,詳情如下:
說明 表中資料來源於TPC。 |
更新周期 | 提供固定資料,不做更新。 |
查詢表結構 |
|
查詢樣本 |
|
更多資料介紹及查詢範例請參見官方 TPC Benchmark H 標準規範。 |
TPCx-BB資料
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、美國(維吉尼亞)、美國(矽谷)、英國(倫敦)、德國(法蘭克福)、阿聯酋(杜拜)、華東2金融雲、華北2金融雲(邀測)、華北2阿里政務雲1、華南1金融雲 |
表名稱與說明 | TPCx-BB是一個巨量資料基準測試載入器,該工具類比了一個網上零售的情境,包含銷售記錄和退貨記錄,同時包含商品資訊和促銷資訊等,詳情如下:
說明 表中資料來源於TPC。 |
更新周期 | 提供固定資料,不做更新。 |
查詢表結構 |
|
查詢樣本 |
|
更多資料介紹及查詢範例請參見官方TPCx-BB標準規範。 |
數字商業資料集
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | commerce |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
說明 表中資料來源於天池實驗室-淘寶展示廣告點選率預估資料集。 |
更新周期 | 提供固定資料,不再做累加式更新。 |
查詢表結構 |
|
查詢樣本 |
|
生活服務資料集
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | life_service |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
|
更新周期 |
|
查詢表結構 |
|
查詢樣本 |
|
金融股票資料集
專案名稱 | BIGDATA_PUBLIC_DATASET |
Schema名稱 | finance |
可用地區 | 華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都) |
表名稱與說明 |
|
更新周期 | 提供固定日期分區的資料,不再做累加式更新。 |
查詢表結構 |
|
查詢樣本 |
|
使用公開資料集
前提條件
已開通MaxCompute並已建立專案,詳情請參見建立MaxCompute專案。
支援的工具或平台
操作步驟(以DataWorks資料開發節點為例)
登入DataWorks控制台,建立工作空間。詳情請參見建立工作空間。
綁定MaxCompute資料來源,詳情請參見建立資料來源或註冊叢集(未參加新版資料開發公測)。
建立ODPS SQL節點,並輸入以下SQL樣本,詳情請參見開發ODPS SQL任務。
--查看過去20年中國各省GDP變化趨勢。 SET odps.namespace.schema=true; SET odps.sql.validate.orderby.limit = false; SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province ORDER BY year ASC;
單擊,查看返回結果。
原公開資料集專案公開資料集參考已不再維護與更新,若您仍有需求依然可以繼續使用。
相關文檔
MaxCompute資料匯出方式介紹詳情,請參見: