すべてのプロダクト
Search
ドキュメントセンター

DataWorks:基本:住宅購入者層の分析

最終更新日:Jan 24, 2026

このチュートリアルでは、住宅購入者層の分析を通じて、DataWorks のデータ開発およびデータ分析機能の習得を支援します。

ケース紹介

このチュートリアルでは、住宅購入者のデータに基づいて購買行動を分析します。DataWorks を使用してローカルデータを MaxCompute の bank_data テーブルにアップロードし、MaxCompute SQL ノードを使用してユーザーグループを分析して result_table を生成し、結果を可視化してグループプロファイルを作成します。

説明

このチュートリアルではシミュレーションデータを使用します。実際のシナリオでは、お客様自身のビジネスデータに置き換えてください。

以下のフローチャートは、データフローと開発プロセスを示しています。

分析の結果、次のようなプロファイルが明らかになりました:ローンを利用している独身の住宅購入者は、主に university.degree または high.school の学歴を持っています。

image

前提条件

DataWorks の有効化

このチュートリアルでは、[中国 (上海)] リージョンを使用します。DataWorks コンソールにログインして[中国 (上海)] リージョンに切り替え、DataWorks がそのリージョンでアクティブ化されていることを確認してください。

説明

このチュートリアルでは [中国 (上海)] を使用します。本番環境では、お客様のビジネスデータが存在するリージョンを選択してください:

  • ビジネスデータが他の Alibaba Cloud サービスにある場合は、同じリージョンを選択してください。

  • ビジネスがオンプレミスにあり、インターネット経由でのアクセスが必要な場合は、レイテンシーを削減するために地理的に近いリージョンを選択してください。

新規ユーザー

新規ユーザーの場合、現在のリージョンで DataWorks が非アクティブであることを示す以下のページが表示されたら、[0 RMB 購入] をクリックします。

image

  1. 購入ページでパラメーターを設定します。

    パラメーター

    説明

    リージョン

    DataWorks を有効化するリージョンを選択します。

    中国 (上海)

    DataWorks エディション

    購入する DataWorks のエディションを選択します。

    説明

    このチュートリアルでは、[Basic Edition] を使用します。すべてのエディションで、このチュートリアルで扱う機能を体験できます。DataWorks エディションの詳細を参照し、お客様のビジネスニーズに合ったエディションを選択してください。

    Basic Edition

  2. [注文を確定して支払う] をクリックして、支払いを完了します。

期限切れ

DataWorks エディションが期限切れの場合、次のプロンプトが表示されます。[エディションの購入] をクリックします。

image

  1. 購入ページでパラメーターを設定します。

    パラメーター

    説明

    エディション

    購入する DataWorks のエディションを選択します。

    説明

    このチュートリアルでは、[Basic Edition] を使用します。すべてのエディションで、このチュートリアルで説明する機能を体験できます。DataWorks エディションの詳細を参照し、ビジネスニーズに合ったエディションを選択してください。

    Basic Edition

    リージョン

    DataWorks を有効化するリージョンを選択します。

    中国 (上海)

  2. [今すぐ購入] をクリックして支払いを完了します。

重要

購入後に関連する DataWorks エディションが見つからない場合は、次の操作を実行してください:

  • システムの更新が遅延している可能性があるため、数分待ってからページをリフレッシュしてください。

  • 現在のリージョンが、DataWorks エディションを購入したリージョンと一致していることを確認してください。

有効化済み

すでに [中国 (上海)] リージョンで DataWorks をアクティベートしている場合、DataWorks の概要ページが表示されます。次のステップに進んでください。

ワークスペースの作成

  1. [DataWorks ワークスペースリスト] ページに移動し、リージョンを [中国 (上海)] に切り替え、[ワークスペースの作成] をクリックします。

  2. [ワークスペースの作成] ページで、[ワークスペース名] を指定し、[Data Studio (新バージョン) を使用] を有効にして、[ワークスペースの作成] をクリックします。

    説明

    2025 年 2 月 18 日以降、プライマリアカウントが初めて DataWorks を有効化し、中国 (上海) リージョンにワークスペースを作成すると、新しい DataStudio がデフォルトで有効になり、インターフェイスには[新しい DataStudio を使用] パラメーターが表示されなくなります。

リソースグループの作成

  1. [DataWorks リソースグループ] ページに移動し、リージョンを [中国 (上海)] に切り替え、[リソースグループの作成] をクリックします。

  2. リソースグループの購入ページで、次のパラメーターを設定します。

    パラメーター

    説明

    名前

    カスタム名を入力します。

    VPCvSwitch

    既存の Virtual Private Cloud (VPC) と vSwitch を選択します。現在のリージョンに存在しない場合は、パラメーターの説明にあるコンソールリンクをクリックして作成します。

    サービスリンクロール

    画面の指示に従って、AliyunServiceRoleForDataWorks を作成します。

  3. [今すぐ購入]をクリックして支払いを完了します。

  4. DataWorks リソースグループ ページに移動し、[中国 (上海)] リージョンに切り替え、作成したリソースグループを見つけ、[アクション] 列で [ワークスペースのバインド] をクリックします。

  5. [ワークスペースのバインド] ページで、作成した DataWorks ワークスペースを見つけ、その [操作] 列の [バインド] をクリックします。

MaxCompute リソースの作成

MaxCompute プロジェクトを作成し、それを DataWorks 計算リソースとしてバインドして、データを受信し、ビッグデータ分析を実行します。

  1. DataWorks ワークスペースリスト ページに移動し、[中国 (上海)] リージョンに切り替え、作成したワークスペースを見つけ、ワークスペース名をクリックして [ワークスペース詳細] ページに移動します。

  2. 左側のナビゲーションウィンドウで、[計算リソース] をクリックします。「計算リソース」ページで、[計算リソースのバインド] をクリックし、[MaxCompute] を選択します。以下の主要なパラメーターを設定して、MaxCompute プロジェクトを作成し、DataWorks の計算リソースとしてバインドします。

    説明

    表に記載されていないパラメーターは、デフォルト値のままにしてください。

    パラメーター

    説明

    MaxCompute プロジェクト

    ドロップダウンリストで[新規作成]をクリックし、次のパラメーターを指定します。

    • プロジェクト名:グローバルに一意なカスタム名を入力します。

    • 従量課金[従量課金] を選択します。

      説明

      Pay-As-You-Go が利用できない場合は、[Pay-As-You-Go] の横にある[有効化] をクリックして MaxCompute サービスを有効化します。

    • デフォルトクォータ:ドロップダウンリストから既存のデフォルトクォータを選択します。

    デフォルトのアクセスID

    [Alibaba Cloud プライマリアカウント] を選択します。

    インスタンス名

    この名前は、タスクの実行に使用される計算リソースを識別します。例えば、このチュートリアルでは MaxCompute_Source と名付けます。

  3. [確認] をクリックします。

操作手順

このチュートリアルでは、DataWorks を使用してテストデータを MaxCompute プロジェクトにアップロードします。次に、DataStudio ワークフローを作成してデータのクリーンアップと書き込みを行い、ワークフローをデバッグし、SQL を使用して結果を検証します。

ステップ 1:テーブルの作成

まず、DataWorks のデータカタログを使用して、MaxCompute に bank_data テーブルを作成します。

  1. DataWorks コンソールにログインします。 目的のリージョンに切り替え、左側のナビゲーションウィンドウで[データ開発と運用] > [データ開発]をクリックし、ドロップダウンリストから対応するワークスペースを選択し、次に[DataStudio へ移動]をクリックします。

  2. 左側のナビゲーションウィンドウで image アイコンをクリックし、[データカタログ] ページに移動します。

  3. (任意) MaxCompute プロジェクトが Data Catalog にない場合は、image アイコンをクリックし、[DataWorks データソース] に移動して、プロジェクトを追加します。

  4. [MaxCompute] ディレクトリをクリックして展開し、ターゲット MaxCompute プロジェクトを選択して、[Table] フォルダに MaxCompute テーブルを作成します。

    説明
    • MaxCompute プロジェクトでスキーマ機能が有効になっている場合、[テーブル] フォルダに MaxCompute テーブルを作成するには、プロジェクトを選択した後にターゲットスキーマを選択する必要があります。

    • この例では、標準モードのワークスペースを使用します。開発環境にのみ bank_data テーブルを作成します。シンプルモードのワークスペースを使用している場合は、本番環境に対応する MaxCompute プロジェクトに bank_data テーブルを作成するだけで済みます。

  5. image アイコンをクリックして、テーブル編集ページを開きます。

    以下の SQL 文を [DDL] セクションに入力してください。システムが自動的にテーブル情報を生成します。

    CREATE TABLE IF NOT EXISTS bank_data (
        age             BIGINT   COMMENT '年齢',
        job             STRING   COMMENT '職種',
        marital         STRING   COMMENT '婚姻状況',
        education       STRING   COMMENT '学歴',
        `default`       STRING   COMMENT 'クレジットカードの有無',
        housing         STRING   COMMENT '住宅ローンの有無',
        loan            STRING   COMMENT 'ローンの有無',
        contact         STRING   COMMENT '連絡方法',
        month           STRING   COMMENT '月',
        day_of_week     STRING   COMMENT '曜日',
        duration        STRING   COMMENT '期間',
        campaign        BIGINT   COMMENT 'このキャンペーンでの接触回数',
        pdays           DOUBLE   COMMENT '前回の接触からの間隔',
        previous        DOUBLE   COMMENT '前回の接触回数',
        poutcome        STRING   COMMENT '前回のマーケティングキャンペーンの結果',
        emp_var_rate    DOUBLE   COMMENT '雇用変動率',
        cons_price_idx  DOUBLE   COMMENT '消費者物価指数',
        cons_conf_idx   DOUBLE   COMMENT '消費者信頼感指数',
        euribor3m       DOUBLE   COMMENT 'ユーロ圏3ヶ月物金利',
        nr_employed     DOUBLE   COMMENT '従業員数',
        y               BIGINT   COMMENT '定期預金の有無'
    );
  6. 編集ページで[デプロイ] をクリックして、開発環境に対応する MaxCompute プロジェクトに bank_data テーブルを作成します。

  7. bank_data テーブルが作成された後、データカタログでテーブル名をクリックすると、テーブルの詳細を表示できます。

ステップ 2:データのアップロード

banking.csv ファイルをダウンロードします。DataWorks のアップロード機能を使用して、bank_data テーブルにアップロードします。

重要

アップロードする前に、スケジューリングリソースグループデータ統合リソースグループが設定されていることを確認してください。詳細については、「データアップロードの制限事項」をご参照ください。

  1. image アイコンをクリックし、すべてのプロダクト > データ統合 > アップロードとダウンロード を選択して、アップロード&ダウンロードページに移動します。

  2. [データをアップロード] をクリックし、以下の設定を構成します:

    パラメーター

    説明

    データソース

    ローカルファイル。

    アップロードするデータを指定

    データソースタイプ

    ローカルの banking.csv ファイルをアップロードします。

    宛先テーブルの設定

    ターゲットエンジン

    MaxCompute

    MaxCompute プロジェクト名

    bank_data テーブルを含むプロジェクトを選択します。

    宛先テーブルの選択

    ターゲットテーブルとして bank_data テーブルを選択します。

    アップロードファイルのデータプレビュー

    [順序どおりにマッピング] をクリックして、データをテーブルフィールドにマップします。

    説明
    • ローカルファイルは .csv.xls.xlsx.json 形式をサポートしています。

    • スプレッドシートファイルの場合、デフォルトで最初のシートがアップロードされます。

    • .csv ファイルの最大サイズは 5 GB です。他のファイルタイプの制限は 100 MB です。

  3. [データのアップロード] をクリックして、ダウンロードした CSV ファイルのデータを MaxCompute コンピューティングリソースの bank_data テーブルにアップロードします。

  4. アップロードの検証。

    SQL クエリ (旧バージョン) を介して bank_data テーブルのデータを検証します。

    1. 左上の image アイコンをクリックします。ポップアップページで、すべてのプロダクト > データ分析 > SQL クエリ をクリックします。

    2. 「マイファイル」の横にあるimage > [ファイルを作成]をクリックします。任意の[ファイル名]を入力し、[OK]をクリックします。

    3. SQL クエリページで、次の SQL を設定します。

      SELECT * FROM bank_data limit 10;
    4. 右上隅で、bank_data テーブルが存在するワークスペースと MaxCompute データソースを選択し、[OK] をクリックします。

      説明

      この例では、標準モードのワークスペースを使用し、bank_data テーブルは開発環境にのみ作成されます。したがって、開発環境用の MaxCompute データソースを選択する必要があります。シンプルモードのワークスペースを使用している場合は、本番環境用の MaxCompute データソースを選択できます。

    5. [実行] をクリックします (プロンプトが表示された場合は、コスト見積もりを確認します)。 下部ペインに最初の 10 レコードが表示され、アップロードが完了したことを確認できます。

      image

ステップ 3:データ処理

MaxCompute SQL ノードを使用して bank_data テーブルをフィルタリングし、ローンを組んでいる独身の住宅購入者の学歴を抽出し、その結果を result_table に書き込みます。

データ処理パイプラインの構築

  1. 左上の icon アイコンをクリックし、すべてのプロダクト > データ開発と O&M > データ開発 を選択します。

  2. ページの上部で、このチュートリアルで作成したワークスペースに切り替えます。左側のナビゲーションウィンドウで image をクリックして、 [Data Studio] に移動します。

  3. [ワークスペースディレクトリ]image > [ワークフローの作成] をクリックし、dw_basic_case と名前を付けて [OK] をクリックします。

  4. [ゼロロードノード] を 1 つと [MaxCompute SQL] ノードを 2 つキャンバスにドラッグし、次のように名前を変更します。

    このチュートリアルで使用されるノード名と機能は次のとおりです:

    タイプ

    名前

    機能

    image ゼロロード

    workshop_start

    ワークフローの構造を管理します。これはコードを必要としないノーオペレーションタスクです。

    image MaxCompute SQL

    ddl_result_table

    bank_data からクリーンアップされたデータを格納するための result_table を作成します。

    image MaxCompute SQL

    insert_result_table

    bank_data をフィルタリングし、結果を result_table に書き込みます。

  5. 図のようにノードを接続します:

    image

    説明

    ワークフローは、手動接続またはコード解析による依存関係の自動識別を介して上流/下流の依存関係を設定することをサポートしています。このチュートリアルでは手動接続方法を使用します。詳細については、「依存関係の自動解析」をご参照ください。

  6. ノードツールバーの[保存]をクリックします。

データ処理ノードの設定

ddl_result_table ノードの設定

このノードは、分析結果を格納するための result_table を作成します。

  1. ddl_result_table ノードを開きます。

  2. ノード編集ページに次のコードを貼り付けます。

    CREATE TABLE IF NOT EXISTS result_table(
      education STRING COMMENT'学歴',
      num       BIGINT COMMENT'カウント'
    );
  3. デバッグパラメーターを設定します。

    MaxCompute SQL ノード編集ページの右側にある[実行設定] をクリックします:

    • [コンピューティングリソース] に、前提条件でバインドされた MaxCompute リソースを設定します。

    • 前提条件」で購入した Serverless リソースグループを選択して、[リソースグループ] パラメーターを設定します。

  4. ノードツールバーの[保存]をクリックします。

insert_result_table ノードの設定

このノードは bank_data をクエリし、result_table にデータを書き込みます。

  1. ワークフロー編集ページで、insert_result_table ノードにマウスカーソルを合わせ、[ノードを開く] をクリックします。

  2. ノード編集ページに次のコードを貼り付けます。

    INSERT OVERWRITE TABLE result_table --result_table にデータを挿入します。
    SELECT
      education,
      COUNT(marital) AS num
    FROM bank_data
    WHERE 
      housing = 'yes'
      AND marital = 'single'
    GROUP BY
    education;
  3. デバッグパラメーターを設定します。

    MaxCompute SQL ノード編集ページの右側にある[実行設定]をクリックします:

    • [コンピューティングリソース] を、前提条件でバインドした MaxCompute リソースに設定します。

    • 前提条件の準備段階で購入した Serverless リソースグループを選択して、[リソースグループ] パラメーターを設定します。

  4. ノードツールバーで[保存]をクリックします。

ステップ 4:デバッグと実行

image アイコンをクリックしてワークフローを実行します。失敗した場合はログを確認してください。

image

ステップ 5:データのクエリと表示

データ処理が完了しました。SQL クエリ (旧バージョン)result_table をクエリし、データを分析します。

  1. 左上の image アイコンをクリックします。ポップアップページで、すべてのプロダクト > データ分析 > SQL クエリ をクリックします。

  2. My Files の横にあるimage > [ファイルを作成]をクリックします。任意の[ファイル名]を入力し、[OK]をクリックします。

  3. SQL クエリページで、次の SQL を設定します。

    SELECT * FROM result_table;
  4. 右上隅で、result_table テーブルが存在するワークスペースと MaxCompute データソースを選択し、[OK] をクリックします。

    説明

    この例では、標準モードのワークスペースを使用します。result_table は開発環境にのみ存在するため、対応するデータソースを選択します。シンプルモードのワークスペースを使用している場合は、本番環境用の MaxCompute データソースを選択できます。

  5. 上部にある [実行] ボタンをクリックします。コスト見積もりページで、[実行] をクリックします。

  6. クエリ結果の image をクリックして、可視化されたグラフ結果を表示します。グラフの右上隅にある image をクリックして、グラフのスタイルをカスタマイズできます。

  7. また、チャートの右上隅にある[保存]をクリックしてチャートをカードとして保存し、左側のナビゲーションウィンドウで[カード] (image) をクリックして表示することもできます。

    image

次のステップ

リソースのリリースとクリーンアップ

リソースをリリースするには:

  1. 自動トリガータスクの停止。

    1. DataWorks コンソールにログインします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、[データ開発と O&M] > [オペレーションセンター] を選択します。 表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[オペレーションセンターへ移動] をクリックします。

    2. 定期タスクのメンテナンス > 定期タスク で、以前に作成したすべての定期タスクを選択します (ワークスペースのルートノードはドロップする必要はありません)。次に、下部で アクション > ドロップ/オフライン をクリックします。

  2. ノードの削除と MaxCompute リソースのバインド解除。

    1. DataWorks コンソールの [ワークスペース] ページに移動します。 上部ナビゲーションバーで、目的のリージョンを選択します。 目的のワークスペースを見つけ、[操作] 列で [ショートカット] > [Data Studio] を選択します。

    2. DataStudio の左側のナビゲーションウィンドウで、image をクリックしてデータ開発ページに移動します。次に、[ディレクトリ] エリアで作成したワークフローを検索し、そのワークフローを右クリックして [削除] をクリックします。

    3. 左側のナビゲーションウィンドウで、image > [計算リソース] をクリックし、バインドされた MaxCompute 計算リソースを探し、[バインド解除] をクリックします。確認ウィンドウでオプションを確認し、指示に従ってバインド解除を完了します。

  3. MaxCompute プロジェクトの削除。

    MaxCompute プロジェクト管理 ページに移動し、作成した MaxCompute プロジェクトを見つけ、[操作] 列の [削除] をクリックし、指示に従って削除を完了します。

  4. DataWorks ワークスペースの削除。

    1. DataWorks コンソールで、ワークスペースを見つけ、[アクション] image > [ワークスペースを削除] をクリックします。

    2. [ワークスペースの削除] ダイアログボックスで、[OK] をクリックしてワークスペースを削除します。