すべてのプロダクト
Search
ドキュメントセンター

DataWorks:テーブルの作成とデータのアップロード

最終更新日:Jan 11, 2025

このトピックでは、DataWorksコンソールでテーブルを作成し、オンプレミス マシンからテーブルにデータをアップロードする方法について説明します。例では、bank_dataテーブルとresult_tableテーブルを使用します。

前提条件

MaxComputeデータソースがワークスペースに追加され、コンピューティング リソースがワークスペースのDataStudioサービスに関連付けられています。この場合、DataStudioページに [maxcompute] フォルダーが表示されます。

  • MaxComputeデータソースがワークスペースに追加されています。詳細については、「MaxComputeデータソースの追加」をご参照ください。

  • コンピューティング リソースがワークスペースのDataStudioサービスに関連付けられています。ワークスペースの [datastudio] ページの左側のナビゲーション ペインで [コンピューティング リソース] をクリックし、コンピューティング リソースをワークスペースのDataStudioサービスに関連付けることができます。

  • 異なるコンピューティング エンジン タイプのタスクで使用されるリソース グループが、DataAnalysisの [システム管理] ページで構成されています。詳細については、「システム管理」をご参照ください。

重要

DataAnalysis の [システム管理] ページで、異なるコンピューティングエンジンの種類のタスクで使用されるリソースグループが構成されていない場合、「現在のファイルソースまたはターゲットエンジンは、データアップロード用のリソースグループを構成する必要があります。スペース管理者に連絡して、リソースグループを構成してください」というエラーメッセージが表示されます。

背景情報

bank_dataテーブルはビジネス データを格納するために使用され、result_tableテーブルはデータ分析結果を格納するために使用されます。

bank_dataテーブルの作成

  1. [datastudio] ページに移動します。

    DataWorksコンソール にログオンします。上部のナビゲーション バーで、目的のリージョンを選択します。左側のナビゲーション ペインで、[データ開発とガバナンス] > [データ開発] を選択します。表示されたページで、ドロップダウン リストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。

  2. [datastudio] ページの [スケジュール済みワークフロー] ペインで、新建 アイコンにポインターを移動し、[テーブルの作成] > [maxcompute] > [テーブル] を選択します。 数据开发创建MaxCompute表

    または、[ビジネス フロー] セクションで目的のワークフローをクリックし、[maxcompute] を右クリックして、[テーブルの作成] を選択することもできます。

  3. [テーブルの作成] ダイアログ ボックスで、[パス] を指定し、[名前]bank_data に設定して、[作成] をクリックします。

  4. テーブル構成タブで、[DDL] をクリックします。

  5. [DDL] ダイアログ ボックスで、次のステートメントを入力し、[テーブル スキーマの生成] をクリックします。

    CREATE TABLE IF NOT EXISTS bank_data
    (
     age             BIGINT COMMENT '年齢',
     job             STRING COMMENT '職種',
     marital         STRING COMMENT '婚姻状況',
     education       STRING COMMENT '学歴',
     default         STRING COMMENT 'クレジットカード',
     housing         STRING COMMENT '住宅ローン',
     loan            STRING COMMENT 'ローン',
     contact         STRING COMMENT '連絡先',
     month           STRING COMMENT '月',
     day_of_week     STRING COMMENT '曜日',
     duration        STRING COMMENT '通話時間',
     campaign        BIGINT COMMENT 'キャンペーン中の連絡回数',
     pdays           DOUBLE COMMENT '最後の連絡からの間隔',
     previous        DOUBLE COMMENT '顧客との連絡回数',
     poutcome        STRING COMMENT '前回のマーケティング キャンペーンの結果',
     emp_var_rate    DOUBLE COMMENT '雇用変化率',
     cons_price_idx  DOUBLE COMMENT '消費者物価指数',
     cons_conf_idx   DOUBLE COMMENT '消費者信頼感指数',
     euribor3m       DOUBLE COMMENT 'ユーロ預金金利',
     nr_employed     DOUBLE COMMENT '従業員数',
     y               BIGINT COMMENT '定期預金の有無'
    );

    テーブルを作成するためのSQL構文の詳細については、「テーブルの作成」をご参照ください。

  6. [確認] メッセージで、[確認] をクリックします。

  7. 表示名[一般] セクションの 開発環境にコミット本番環境にコミット パラメーターを構成し、 と をそれぞれクリックします。

    説明

    この例では、標準モードのワークスペースを使用しています。ベーシック モードのワークスペースを使用している場合は、[本番環境にコミット] をクリックするだけで済みます。

  8. 左側のナビゲーション ペインで、[ワークスペース テーブル] アイコンをクリックします。

  9. [ワークスペース テーブル] ペインで、作成したテーブルの名前をダブルクリックして、テーブル情報を表示します。

result_tableテーブルの作成

  1. [datastudio] ページの [スケジュール済みワークフロー] ペインで、新建 アイコンにポインターを移動し、[テーブルの作成] > [maxcompute] を選択します。

    または、[ビジネス フロー] セクションで目的のワークフローをクリックし、[maxcompute] を右クリックして、[テーブルの作成] を選択することもできます。

  2. [テーブルの作成] ダイアログ ボックスで、[パス] を指定し、[名前]result_table に設定して、[作成] をクリックします。

  3. [DDL] ダイアログ ボックスで、次のステートメントを入力し、[テーブル スキーマの生成] をクリックします。

    CREATE TABLE IF NOT EXISTS result_table
    (  
     education   STRING COMMENT '学歴',
     num         BIGINT COMMENT '人数'
    );
  4. [確認] メッセージで、[確認] をクリックします。

  5. 表示名[一般] セクションの 開発環境にコミット本番環境にコミット パラメーターを構成し、 と をそれぞれクリックします。

  6. 左側のナビゲーション ペインで、[ワークスペース テーブル] アイコンをクリックします。

  7. [ワークスペース テーブル] ペインで、作成したテーブルの名前をダブルクリックして、テーブル情報を表示します。

オンプレミス マシンから bank_dataテーブルにファイルをアップロードする

DataWorksでは、次の操作を実行できます。

  • オンプレミス マシンからワークスペースのテーブルにテキスト ファイルをアップロードする。

  • Data Integrationを使用して、さまざまなデータソースからワークスペースにビジネス データをインポートする。

説明

オンプレミス マシンからファイルをアップロードする場合は、次の点に注意する必要があります。

  • ファイル形式: ファイルは .txt.csv、または .log 形式である必要があります。

  • ファイル サイズ: ファイルのサイズは 30 MBを超えることはできません。

    30 MBを超えるファイルをアップロードする必要がある場合は、次のいずれかの方法を使用します。

    • ファイルをオブジェクト ストレージ サービス (OSS) にアップロードし、MaxComputeの外部テーブルを使用してオブジェクト データをMaxComputeテーブルにインポートします。OSSへのファイルのアップロード方法については、「オブジェクトのアップロード」をご参照ください。MaxComputeの外部テーブルの使用方法については、「外部テーブル」をご参照ください。

    • ファイルをOSSにアップロードし、Data Integrationを使用してオブジェクト データをMaxComputeテーブルに同期します。OSSへのファイルのアップロード方法については、「オブジェクトのアップロード」をご参照ください。OSSからMaxComputeへのデータの同期方法については、「コードレスUIを使用したバッチ同期タスクの構成」をご参照ください。

    • [dataanalysis] が提供する [データ アップロード] 機能を使用します。

  • テーブル タイプ: ファイルからパーティション テーブルまたは非パーティション テーブルにデータをインポートできます。ファイルをパーティション テーブルにインポートする場合、パーティション列の値にアンパサンド (&) やアスタリスク (*) などの特殊文字を含めることはできません。

この例では、banking.txt ファイルをオンプレミス マシンから bank_dataテーブルにアップロードします。ファイルをアップロードするには、次の手順を実行します。

  1. 导入[datastudio] ページの 使用数据开发导入数据 アイコンをクリックします。

  2. [開発環境のテーブルにローカル データをインポート] ダイアログ ボックスで、検索ボックスに少なくとも 3 文字を入力してテーブルを検索し、検索結果から bank_data を選択して、[次へ] をクリックします。

    説明

    作成したテーブルが見つからない場合は、DataWorksのデータ マップにテーブルを手動で同期できます。その後、ダイアログ ボックスでキーワードを使用してテーブルを再度検索できます。テーブルを手動で同期する方法については、「テーブル メタデータの手動更新」をご参照ください。

  3. 表示されたダイアログ ボックスで、参照[ファイルの選択] の横にある データインポート方法の選択ローカル ファイルのアップロード をクリックして、目的のファイルを選択します。 パラメーターの値は で、変更できません。次に、その他のパラメーターを構成します。

    bank

    パラメーター

    説明

    データ インポート方法の選択

    データのアップロードに使用できる方法。デフォルト値: ローカル ファイルのアップロード。デフォルト値は変更できません。

    ファイル形式

    有効な値: CSV および カスタム テキスト ファイル

    ファイルの選択

    アップロードするファイル。[参照] をクリックしてアップロードするファイルを選択することで、ファイルをアップロードできます。

    区切り文字の選択

    ファイルで使用される区切り文字。有効な値: カンマ (,)タブセミコロン (;)スペース|#、および &。この例では、カンマ (,) が選択されています。

    元の文字セット

    ファイルの文字セット。有効な値: GBKUTF-8CP936、および ISO-8859。この例では、GBK が選択されています。

    最初の行をインポート

    データのインポートを開始する行。この例では、1 が選択されています。

    最初の行をフィールド名として使用

    最初の行をヘッダー行として使用するかどうかを指定します。この例では、はい は選択されていません。

    プレビュー

    アップロードするデータのプレビュー結果。

  4. [次へ] をクリックします。

  5. ソース ファイルとデスティネーション テーブルのフィールドの一致モードを選択します。この例では、[場所別] が選択されています。

  6. [データのインポート] をクリックします。

次のステップ

テーブルを作成し、オンプレミス マシンから作成したテーブルにデータをアップロードする方法を学習しました。次のチュートリアルに進むことができます。次のチュートリアルでは、ワークフローの作成、構成、コミット、およびワークスペースでのデータ コンピューティングと分析の実行方法について学習します。詳細については、「ワークフローの作成」をご参照ください。