MaxComputeは、TPC-DSの公式ツールを使用して、10 GB、100 GB、1 TB、および10 TBのTPC-DSデータセットを生成します。 TPC-DSデータセットを製品テストに使用できます。 このトピックでは、MaxComputeパブリックデータセットのTPC-DSデータセットに関する基本情報と、MaxComputeを使用してTPC-DSデータセットからデータをクエリする方法について説明します。
説明
TPC-DS (TPC Benchmark TM DSの略) は、データ管理システムのパフォーマンスを測定するためのベンチマークを定義する最も有名な組織であるTransaction Processing Performance Council (TPC) によって策定された標準ベンチマークです。 ベンチマークの測定結果もTPCによって公開されています。
MaxComputeは、TPC-DSの公式ツールを使用して、10 GB、100 GB、1 TB、および10 TBのTPC-DSデータセットを生成します。 データセットは、MaxComputeパブリックプロジェクトBIGDATA_PUBLIC_DATASETの異なるスキーマに保存されます。 スキーマの詳細については、「スキーマ関連の操作」をご参照ください。 MaxComputeを有効化してプロジェクトを作成した後、プロジェクト間アクセスを実行してTPC-DSテーブルを照会できます。 次の表に、テーブルに関する情報を示します。
データサイズ | プロジェクト名 | スキーマ名 | テーブル名 |
10 GB | BIGDATA_PUBLIC_DATASET | TPCDS_10G | call_center catalog_page catalog_returns catalog_sales customer customer_address customer_demographics date_dim household_demographics income_band inventory item promotion reason ship_mode store store_returns store_sales tab_reducenum tab_reducenum_100 time_dim warehouse web_page web_returns web_sales web_site |
100 GB | BIGDATA_PUBLIC_DATASET | TPCDS_100G | |
1 TB | BIGDATA_PUBLIC_DATASET | TPCDS_1T | |
10 TB | BIGDATA_PUBLIC_DATASET | TPCDS_10T |
テーブルデータはTPC-DSから参照されます。 詳細は、「TPC」をご参照ください。
テーブルスキーマとコンテンツの詳細については、「TPC BENCHMARK」をご参照ください。™DS
宣言
TPC-DSデータは、TPC-DSベンチマークテストに基づいてMaxComputeパブリックデータセットで生成および分析されます。 MaxComputeパブリックデータセットのデータのテスト結果は、MaxComputeパブリックデータセットに対して実行されるテストがTPC-DSベンチマークテストの要件を満たすことができないため、TPCによって公開されるTPC-DSベンチマーク結果とは異なります。
MaxComputeが提供するTPC-DSデータセットは、製品テストにのみ使用できます。 データは定期的に更新されません。 したがって、本番環境ではTPC-DSデータセットを使用しないことを推奨します。
MaxComputeによって提供されるTPC-DSデータは、TPCから取得されます。 TPC-DSデータを生成することもできます。 TPC-DSテストデータを生成する方法の詳細については、「TPC-DSドキュメント」をご参照ください。
サポートされるリージョン
リージョン | リージョン ID |
中国 (杭州) | cn-hangzhou |
中国 (上海) | cn-shanghai |
中国 (北京) | cn-beijing |
中国 (張家口) | cn-zhangjiakou |
中国 (ウランチャブ) | cn-wulanchabu |
中国 (深セン) | cn-shenzhen |
中国 (成都) | cn-chengdu |
中国 (香港) | cn-hongkong |
シンガポール | ap-southeast-1 |
日本 (東京) | ap-northeast-1 |
オーストラリア (シドニー) (閉鎖予定) | ap-southeast-2 |
マレーシア (クアラルンプール) | ap-southeast-3 |
インドネシア (ジャカルタ) | ap-southeast-5 |
米国 (シリコンバレー) | us-west-1 |
米国 (バージニア州) | us-east-1 |
英国 (ロンドン) | eu-west-1 |
ドイツ (フランクフルト) | eu-central-1 |
UAE (ドバイ) | me-east-1 |
中国東部 2 Finance | cn-shanghai-finance-1 |
中国北部 2 Finance | cn-beijing-finance-1 |
中国南部 1 Finance | cn-shenzhen-finance-1 |
中国北部 2 Ali Gov 1 | cn-north-2-gov-1 |
注意事項
パブリックデータセットは、すべてのMaxComputeユーザーが使用できます。 パブリックデータセットを使用する場合は、次の項目に注意してください。
すべてのデータは、パブリックMaxComputeプロジェクトBIGDATA_PUBLIC_DATASETに保存されます。 このプロジェクトに属するMaxComputeユーザーはいません。 したがって、プロジェクト間でデータにアクセスする必要があります。 SQLスクリプトを作成するときは、テーブル名の前にプロジェクト名とスキーマ名を指定する必要があります。 テナントレベルのスキーマ構文を有効にしない場合は、ステートメントを実行する前にセッションレベルのスキーマ構文を有効にする必要があります。 サンプル文:
-- Enable the session-level schema syntax. set odps.namespace.schema=true; -- In this example, data in the tpcds_10g dataset is queried. If you want to query data from another dataset, manually replace the schema name in the following statement with the name of the schema in which the dataset is stored. select * from bigdata_public_dataset.tpcds_10g.store_sales limit 100;
説明パブリックデータセット内のデータのストレージに対して料金を支払う必要はありません。 ただし、ステートメントの実行時に発生するコンピューティング料金が課金されます。 課金ルールの詳細については、「」をご参照ください。
プロジェクト間アクセスが必要なため、DataWorksの [DataMap] ページでパブリックデータセットのテーブルを見つけることができません。
TPC-DSデータセットは、スキーマによるストレージをサポートするプロジェクトに保存されます。 テナントレベルのスキーマ構文を有効にしない場合、DataWorksのDataAnalysisが提供するパブリックデータセットのTPC-DSデータセットを表示できませんが、MaxComputeが提供するSQL文を使用してTPC-DSデータセットを照会できます。
データはプロジェクト全体でアクセスされます。 SQL文が正常に実行されるようにするには、次のコマンドを実行する必要があります。
-- For data types used in the table schemas of TPC-DS datasets, such as DECIMAL and INT, you need to run the following commands: set odps.sql.hive.compatible=true; set odps.sql.type.system.odps2=true; set odps.sql.decimal.odps2=true; -- In the following commands, the flag values are the same as those for new projects and may be different from those for existing projects. Flag values for existing projects remain unchanged to prevent impact on existing queries. -- We recommend that you use the setproject commands to change the flag values to the default values. If you do not change the flag values, an error may be reported when the LIMIT keyword is not included in the ORDER BY clause of an SQL statement. An execution latency may also occur due to an invalid join order of the TPC-DS Q72 query. set odps.sql.validate.orderby.limit=false; set odps.optimizer.join.reorder.enable=true; set odps.optimizer.column.stat.enable=true; -- Cartesian products are used when you perform the TPC-DS Q77 query for TPC-DS datasets. By default, Cartesian products produced by MaxCompute are not supported in sort-merge join operations. If you want to use Cartesian products in sort-merge join operations, run the following command: set odps.sql.allow.cartesian=true;
TPC-DSクエリの実行
前提条件
MaxComputeが有効化されています。 MaxComputeプロジェクトが作成されます。 MaxComputeプロジェクトの作成方法の詳細については、「MaxComputeプロジェクトの作成」をご参照ください。
サポートされているツールとプラットフォーム
サンプルクエリファイル
MaxComputeは、さまざまなサイズのデータセットのサンプルクエリファイルを提供します。 各ファイルには99のクエリが含まれます。 これらのクエリでは、スキャンされたデータの複雑さと範囲は大きく異なります。 ビジネス要件に基づいてクエリファイルを選択することを推奨します。 これにより、追加のコンピューティングコストが発生するのを防ぎます。 また、TPC-DSベンチマークスイートのツールを使用して、パラメーター値に基づいて異なるバージョンのクエリを生成することもできます。 詳細については、「TPC-DS公式ドキュメント」をご参照ください。
データサイズ | クエリファイル |
10 GB | |
100 GB | |
1 TB | |
10 TB |
このトピックで説明するサンプルのクエリファイルは、TPC-DSのベンチマークテストから参照されます。 MaxComputeパブリックデータセットで実行されるテストは、TPC-DSベンチマークテストの要件を満たすことができないため、上記のファイルのテスト結果は、TPCによって公開されたTPC-DSベンチマーク結果とは異なります。 詳細は、「TPC」をご参照ください。