すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:TPC-DSデータ

最終更新日:Dec 05, 2024

MaxComputeは、TPC-DSの公式ツールを使用して、10 GB、100 GB、1 TB、および10 TBのTPC-DSデータセットを生成します。 TPC-DSデータセットを製品テストに使用できます。 このトピックでは、MaxComputeパブリックデータセットのTPC-DSデータセットに関する基本情報と、MaxComputeを使用してTPC-DSデータセットからデータをクエリする方法について説明します。

説明

TPC-DS (TPC Benchmark TM DSの略) は、データ管理システムのパフォーマンスを測定するためのベンチマークを定義する最も有名な組織であるTransaction Processing Performance Council (TPC) によって策定された標準ベンチマークです。 ベンチマークの測定結果もTPCによって公開されています。

MaxComputeは、TPC-DSの公式ツールを使用して、10 GB、100 GB、1 TB、および10 TBのTPC-DSデータセットを生成します。 データセットは、MaxComputeパブリックプロジェクトBIGDATA_PUBLIC_DATASETの異なるスキーマに保存されます。 スキーマの詳細については、「スキーマ関連の操作」をご参照ください。 MaxComputeを有効化してプロジェクトを作成した後、プロジェクト間アクセスを実行してTPC-DSテーブルを照会できます。 次の表に、テーブルに関する情報を示します。

データサイズ

プロジェクト名

スキーマ名

テーブル名

10 GB

BIGDATA_PUBLIC_DATASET

TPCDS_10G

call_center

catalog_page

catalog_returns

catalog_sales

customer

customer_address

customer_demographics

date_dim

household_demographics

income_band

inventory

item

promotion

reason

ship_mode

store

store_returns

store_sales

tab_reducenum

tab_reducenum_100

time_dim

warehouse

web_page

web_returns

web_sales

web_site

100 GB

BIGDATA_PUBLIC_DATASET

TPCDS_100G

1 TB

BIGDATA_PUBLIC_DATASET

TPCDS_1T

10 TB

BIGDATA_PUBLIC_DATASET

TPCDS_10T

説明

宣言

  • TPC-DSデータは、TPC-DSベンチマークテストに基づいてMaxComputeパブリックデータセットで生成および分析されます。 MaxComputeパブリックデータセットのデータのテスト結果は、MaxComputeパブリックデータセットに対して実行されるテストがTPC-DSベンチマークテストの要件を満たすことができないため、TPCによって公開されるTPC-DSベンチマーク結果とは異なります。

  • MaxComputeが提供するTPC-DSデータセットは、製品テストにのみ使用できます。 データは定期的に更新されません。 したがって、本番環境ではTPC-DSデータセットを使用しないことを推奨します。

  • MaxComputeによって提供されるTPC-DSデータは、TPCから取得されます。 TPC-DSデータを生成することもできます。 TPC-DSテストデータを生成する方法の詳細については、「TPC-DSドキュメント」をご参照ください。

サポートされるリージョン

リージョン

リージョン ID

中国 (杭州)

cn-hangzhou

中国 (上海)

cn-shanghai

中国 (北京)

cn-beijing

中国 (張家口)

cn-zhangjiakou

中国 (ウランチャブ)

cn-wulanchabu

中国 (深セン)

cn-shenzhen

中国 (成都)

cn-chengdu

中国 (香港)

cn-hongkong

シンガポール

ap-southeast-1

日本 (東京)

ap-northeast-1

オーストラリア (シドニー) (閉鎖予定)

ap-southeast-2

マレーシア (クアラルンプール)

ap-southeast-3

インドネシア (ジャカルタ)

ap-southeast-5

米国 (シリコンバレー)

us-west-1

米国 (バージニア州)

us-east-1

英国 (ロンドン)

eu-west-1

ドイツ (フランクフルト)

eu-central-1

UAE (ドバイ)

me-east-1

中国東部 2 Finance

cn-shanghai-finance-1

中国北部 2 Finance

cn-beijing-finance-1

中国南部 1 Finance

cn-shenzhen-finance-1

中国北部 2 Ali Gov 1

cn-north-2-gov-1

注意事項

パブリックデータセットは、すべてのMaxComputeユーザーが使用できます。 パブリックデータセットを使用する場合は、次の項目に注意してください。

  • すべてのデータは、パブリックMaxComputeプロジェクトBIGDATA_PUBLIC_DATASETに保存されます。 このプロジェクトに属するMaxComputeユーザーはいません。 したがって、プロジェクト間でデータにアクセスする必要があります。 SQLスクリプトを作成するときは、テーブル名の前にプロジェクト名とスキーマ名を指定する必要があります。 テナントレベルのスキーマ構文を有効にしない場合は、ステートメントを実行する前にセッションレベルのスキーマ構文を有効にする必要があります。 サンプル文:

    -- Enable the session-level schema syntax.
    set odps.namespace.schema=true; 
    -- In this example, data in the tpcds_10g dataset is queried. If you want to query data from another dataset, manually replace the schema name in the following statement with the name of the schema in which the dataset is stored. 
    select * from bigdata_public_dataset.tpcds_10g.store_sales limit 100;
    説明

    パブリックデータセット内のデータのストレージに対して料金を支払う必要はありません。 ただし、ステートメントの実行時に発生するコンピューティング料金が課金されます。 課金ルールの詳細については、「」をご参照ください。

    コンピューティング価格

  • プロジェクト間アクセスが必要なため、DataWorksの [DataMap] ページでパブリックデータセットのテーブルを見つけることができません。

  • TPC-DSデータセットは、スキーマによるストレージをサポートするプロジェクトに保存されます。 テナントレベルのスキーマ構文を有効にしない場合、DataWorksのDataAnalysisが提供するパブリックデータセットのTPC-DSデータセットを表示できませんが、MaxComputeが提供するSQL文を使用してTPC-DSデータセットを照会できます。

  • データはプロジェクト全体でアクセスされます。 SQL文が正常に実行されるようにするには、次のコマンドを実行する必要があります。

    -- For data types used in the table schemas of TPC-DS datasets, such as DECIMAL and INT, you need to run the following commands:
    set odps.sql.hive.compatible=true;
    set odps.sql.type.system.odps2=true;
    set odps.sql.decimal.odps2=true;
    -- In the following commands, the flag values are the same as those for new projects and may be different from those for existing projects. Flag values for existing projects remain unchanged to prevent impact on existing queries. 
    -- We recommend that you use the setproject commands to change the flag values to the default values. If you do not change the flag values, an error may be reported when the LIMIT keyword is not included in the ORDER BY clause of an SQL statement. An execution latency may also occur due to an invalid join order of the TPC-DS Q72 query.
    set odps.sql.validate.orderby.limit=false;
    set odps.optimizer.join.reorder.enable=true;
    set odps.optimizer.column.stat.enable=true;
    -- Cartesian products are used when you perform the TPC-DS Q77 query for TPC-DS datasets. By default, Cartesian products produced by MaxCompute are not supported in sort-merge join operations. If you want to use Cartesian products in sort-merge join operations, run the following command: 
    set odps.sql.allow.cartesian=true;

TPC-DSクエリの実行

前提条件

MaxComputeが有効化されています。 MaxComputeプロジェクトが作成されます。 MaxComputeプロジェクトの作成方法の詳細については、「MaxComputeプロジェクトの作成」をご参照ください。

サポートされているツールとプラットフォーム

サンプルクエリファイル

MaxComputeは、さまざまなサイズのデータセットのサンプルクエリファイルを提供します。 各ファイルには99のクエリが含まれます。 これらのクエリでは、スキャンされたデータの複雑さと範囲は大きく異なります。 ビジネス要件に基づいてクエリファイルを選択することを推奨します。 これにより、追加のコンピューティングコストが発生するのを防ぎます。 また、TPC-DSベンチマークスイートのツールを使用して、パラメーター値に基づいて異なるバージョンのクエリを生成することもできます。 詳細については、「TPC-DS公式ドキュメント」をご参照ください。

データサイズ

クエリファイル

10 GB

MaxCompute-TPCDS_10G-99-query

100 GB

MaxCompute-TPCDS_100G-99-query

1 TB

MaxCompute-TPCDS_1T-99-query

10 TB

MaxCompute-TPCDS_10T-99-query

説明

このトピックで説明するサンプルのクエリファイルは、TPC-DSのベンチマークテストから参照されます。 MaxComputeパブリックデータセットで実行されるテストは、TPC-DSベンチマークテストの要件を満たすことができないため、上記のファイルのテスト結果は、TPCによって公開されたTPC-DSベンチマーク結果とは異なります。 詳細は、「TPC」をご参照ください。