MaxComputeが有効化された後、MaxCompute SQLを使用して、パブリックデータセットのデータをクエリおよび分析できます。 これにより、MaxComputeの使用をすぐに開始できます。 このトピックでは、MaxComputeのパブリックデータセットと、MaxCompute SQLを使用してパブリックデータセットのデータをクエリおよび分析する方法について説明します。
概要
MaxComputeは、GitHubパブリックイベントデータ、全国統計データ、TPCパフォーマンステストデータ、デジタルビジネスデータ、ライフサービスデータ、金融ストックデータなどのデータカテゴリに基づいたパブリックデータセットを提供します。 すべてのデータは、MaxComputeのパブリックプロジェクトBIGDATA_PUBLIC_DATASETの異なるスキーマに保存されます。
カテゴリ | 説明 | データセット名 | スキーマ名 | |
GitHubの公開イベントデータ | 多数の開発者がGitHubでオープンソースプロジェクトを開発し、開発プロセス中に多数のイベントを生成します。 GitHubは、イベントタイプ、イベントの詳細、開発者、コードリポジトリなど、各イベントに関する情報を記録します。 GitHubは、主演リポジトリのイベントやコードの送信など、公開イベントも公開しています。 | GitHub publicイベントデータセット | github_events | |
全国統計データ | 世界各国および中国本土のすべての州の年間国内総生産 (GDP) データが含まれています。 | National statistics dataset | national_data | |
TPCパフォーマンスデータ | TPC-DS | TPC-DSは、クエリおよびデータ保守を含む、意思決定支援システムのいくつかの一般的に適用可能な態様をモデル化する意思決定支援ベンチマークである。 TPC-DSにより、ビッグデータシステムなどの新しいテクノロジーがベンチマークテストを実行できます。 |
|
|
TPC-H | TPC-Hは意思決定支援ベンチマークです。 これは、ビジネス指向のアドホッククエリと同時データ変更のスイートで構成されています。 図TPC-Hは、大量のデータに対して非常に複雑なクエリを実行し、重要なビジネス上の質問に対する回答を提供する意思決定支援システムを示す。 |
|
| |
TPCx-BB | TPCx-BBは、Hadoopベースのビッグデータシステムのパフォーマンスを測定するために設計されたTPC Expressベンチマークです。 TPCx − BBは、頻繁に実行される分析クエリを実行することによって、ハードウェア構成要素とソフトウェア構成要素の両方の性能を測定する。 |
|
| |
デジタルビジネスデータ | Taobaoの広告データ、Taobaoのショッピングデータ、Alibaba Groupのeコマースデータが含まれています。 | デジタルビジネスデータセット | commerce | |
生命サービスデータ | 中古住宅、映画、興行収入、携帯電話番号の帰属、および行政、都市、および地方の部門コード情報のデータが含まれています。 | Life serviceデータセット | life_service | |
金融株式データ | 株式情報が含まれます。 | 金融株式データセット | finance |
免責事項
MaxComputeのパブリックデータセット内のデータは、製品テスト専用です。 データは定期的に更新されず、その精度は保証されません。 生産プロセスでデータを使用しないでください。
MaxComputeパブリックデータセットのTPCデータは、TPCベンチマークテストに基づいて生成および分析されます。 テスト結果は、リリースされたTPCベンチマークテスト結果とは異なります。 これは、MaxComputeパブリックデータセットに基づいて実行されるテストが、TPCベンチマークテストのすべての要件を満たしていないためです。
MaxComputeによって提供されるTPCパフォーマンステストデータは、TPCから取得されます。 TPCパフォーマンステストデータを生成することもできます。 TPCパフォーマンステストデータの生成方法の詳細については、「TPCドキュメント」をご参照ください。
注意事項
パブリックデータセットは、すべてのMaxComputeユーザーが使用できます。 パブリックデータセットを使用する場合は、次の項目に注意してください。
パブリックデータセットのすべてのデータは、MaxComputeの
BIGDATA_PUBLIC_DATASET
プロジェクトに保存されます。 ただし、このプロジェクトにメンバーとして追加されるユーザーはありません。 この場合、プロジェクト間でデータにアクセスする必要があります。 SQLスクリプトを作成するときは、テーブル名の前にプロジェクト名とスキーマ名を指定します。 テナントレベルのスキーマ構文を有効にしない場合は、ステートメントを実行する前にセッションレベルのスキーマ構文を有効にしてください。 サンプル文:-- Enable the session-level schema syntax. set odps.namespace.schema=true; -- Query 100 data records from the dwd_github_events_odps table. select * from bigdata_public_dataset.github_events.dwd_github_events_odps where ds='2024-05-10' limit 100;
重要パブリックデータセットへのデータの保存に対しては課金されません。 ただし、クエリ文を実行すると計算料金が発生します。 詳細については、
プロジェクト間アクセスが必要なため、DataWorksの [データマップ] ページでパブリックデータセットのテーブルを見つけることができません。
パブリックデータセットはスキーマによって保存されます。 テナントレベルのスキーマ構文を有効にしない場合、DataWorks DataAnalysisでパブリックデータセットを表示することはできません。 この場合、SQL文を実行することによってのみ、パブリックデータセットをクエリできます。
テーブルの詳細
次のコンテンツでは、パブリックプロジェクトBIGDATA_PUBLIC_DATASETの各スキーマのテーブルの詳細を説明します。
GitHubの公開イベントデータ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | github_events |
サポート対象リージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) |
テーブル名と説明 | 多数の開発者がGitHubでオープンソースプロジェクトを開発し、開発プロセス中に多数のイベントを生成します。 GitHubは、イベントタイプ、イベントの詳細、開発者、コードリポジトリなど、各イベントに関する情報を記録します。 GitHubは、主演リポジトリのイベントやコードの送信など、公開イベントも公開しています。 イベントタイプの詳細については、「GitHubイベントタイプ」をご参照ください。 MaxComputeは、GH Archiveが提供する大量のパブリックイベントデータをバッチ処理して開発し、次のテーブルを生成します。
説明 表中のデータはGH Archiveから入手する。 |
更新サイクル |
|
スキーマ照会 |
|
クエリの例 |
|
データとクエリの例の詳細については、「GitHub public event data」をご参照ください。 |
全国統計データ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | national_data |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) |
テーブル名と説明 |
説明 annual_gdp_by_provinceテーブル内のデータは、National Bureau of Statistics of Chinaから取得され、annual_gdp_by_countryテーブル内のデータは、国際通貨基金 (IMF) から取得される。 |
更新サイクル | 固定データは提供され、更新されません。 |
スキーマ照会 |
|
クエリの例 |
|
TPC-DSデータ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpcds_10g、tpcds_100g、tpcds_1t、およびtpcds_10t |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) 、中国 (香港) 、日本 (東京) 、シンガポール、オーストラリア (シドニー) 閉鎖、マレーシア (クアラルンプール) 、インドネシア (ジャカルタ) 、米国 (バージニア) 、米国 (シリコンバレー) 、英国 (ロンドン) 、ドイツ (フランクフルト) 、アラブ首長国連邦 (ドバイ) 、中国東部2ファイナンス、中国北部2ファイナンス (プレビュー) 、中国北部2 Ali Gov 1、および中国南部1ファイナンス |
テーブル名と説明 | TPC-DSモデルは、大規模な全国チェーン小売業者の販売システムをシミュレートします。 販売システムには、店舗 (実店舗) 、web (オンラインストア) 、カタログ (電話注文) の3つの販売チャネルが含まれます。 各チャネルでは、1つのテーブルを使用して売上記録を保存し、別のテーブルを使用して返品記録を保存し、複数のディメンションテーブルを使用して製品情報、プロモーション情報、ユーザー情報などの情報を保存します。 テーブルの詳細:
説明 表中のデータはTPCから得られる。 |
更新サイクル | 固定データは提供され、更新されません。 |
スキーマ照会 |
|
クエリの例 |
|
異なるデータ仕様のクエリサンプルファイルについては、「TPC-DSデータ」をご参照ください。 データの詳細については、「TPCベンチマークDS標準仕様」をご参照ください。 |
TPC-Hデータ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpch_10g、tpch_100g、tpch_1t、およびtpch_10t |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) 、中国 (香港) 、日本 (東京) 、シンガポール、オーストラリア (シドニー) 閉鎖、マレーシア (クアラルンプール) 、インドネシア (ジャカルタ) 、米国 (バージニア) 、米国 (シリコンバレー) 、英国 (ロンドン) 、ドイツ (フランクフルト) 、アラブ首長国連邦 (ドバイ) 、中国東部2ファイナンス、中国北部2ファイナンス (プレビュー) 、中国北部2 Ali Gov 1、および中国南部1ファイナンス |
テーブル名と説明 | TPC-Hは、オンライン分析と処理を評価するために使用されるベンチマークです。 TPC-Hデータは、プロバイダーとバイヤーの間のビジネス行動をシミュレートします。 TPC-Hデータには、注文情報、商品情報、ユーザー情報などの情報が含まれています。 テーブルの詳細:
説明 表中のデータはTPCから得られる。 |
更新サイクル | 固定データは提供され、更新されません。 |
スキーマ照会 |
|
クエリの例 |
|
データおよびサンプルクエリの詳細については、「TPCベンチマークH標準仕様」をご参照ください。 |
TPCx-BBデータ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、およびtpcxbb_10t |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) 、中国 (香港) 、日本 (東京) 、シンガポール、オーストラリア (シドニー) 閉鎖、マレーシア (クアラルンプール) 、インドネシア (ジャカルタ) 、米国 (バージニア) 、米国 (シリコンバレー) 、英国 (ロンドン) 、ドイツ (フランクフルト) 、アラブ首長国連邦 (ドバイ) 、中国東部2ファイナンス、中国北部2ファイナンス (プレビュー) 、中国北部2 Ali Gov 1、および中国南部1ファイナンス |
テーブル名と説明 | TPCx-BBは、オンライン小売シナリオをシミュレートするビッグデータベンチマークテストツールです。 TPCx − BBデータは、販売記録、返品記録、製品情報、及び販売促進情報を含む。 テーブルの詳細:
説明 表中のデータはTPCから得られる。 |
更新サイクル | 固定データは提供され、更新されません。 |
スキーマ照会 |
|
クエリの例 |
|
データとクエリの例の詳細については、「TPCx-BB標準仕様」をご参照ください。 |
デジタルビジネスデータ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | コマース |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) |
テーブル名と説明 |
説明 表中のデータは、Tianchi Lab − Ad Display/Click data n Taobao.comから得られる。 |
更新サイクル | 固定データが提供され、増分更新されなくなります。 |
スキーマ照会 |
|
クエリの例 |
|
生命サービスデータ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | life_service |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) |
テーブル名と説明 |
|
更新サイクル |
|
スキーマ照会 |
|
クエリの例 |
|
金融株式データ
Project name | BIGDATA_PUBLIC_DATASET |
スキーマ名 | finance |
サポートされるリージョン | 中国 (杭州) 、中国 (上海) 、中国 (北京) 、中国 (張家口) 、中国 (ウランカブ) 、中国 (深セン) 、中国 (成都) |
テーブル名と説明 |
|
更新サイクル | 日付固有のパーティション内のデータが提供され、増分更新されなくなります。 |
スキーマ照会 |
|
クエリの例 |
|
パブリックデータセットの使用Use public datasets
前提条件
MaxComputeが有効化され、MaxComputeプロジェクトが作成されます。 MaxComputeプロジェクトの作成方法の詳細については、「MaxComputeプロジェクトの作成」をご参照ください。
サポートされているツールまたはプラットフォーム
手順 (DataWorks ODPS SQLノードを使用)
DataWorksコンソールにログインし、ワークスペースを作成します。 ワークスペースの作成方法の詳細については、「ワークスペースの作成」をご参照ください。
MaxComputeコンピューティングエンジンをワークスペースに関連付けます。 詳細については、「データソースの追加またはクラスターのワークスペースへの登録」をご参照ください。
ODPS SQLノードを作成し、次のSQL文を入力します。 詳細については、「MaxCompute SQLタスクの開発」をご参照ください。
-- Query the GDP change trend of each province in the Chinese mainland over the past 20 years. SET odps.namespace.schema=true; SET odps.sql.validate.orderby.limit = false; SELECT region, gdp, year FROM bigdata_public_dataset.national_data.annual_gdp_by_province ORDER BY year ASC;
をクリックして、出力結果を表示します。
[パブリックデータセットリファレンス] で説明されているMAXCOMPUTE_PUBLIC_DATAプロジェクトは、維持または更新されません。 ビジネス要件に基づいて、プロジェクトのパブリックデータセットを引き続き使用できます。