テーブルの作成とデータのアップロード - DataWorks - Alibaba Cloud ドキュメントセンター

このトピックでは、DataWorksコンソールでテーブルを作成し、オンプレミスマシンからテーブルにデータをアップロードする方法について説明します。例では、bank_dataテーブルとresult_tableテーブルを使用します。

前提条件

MaxComputeデータソースがワークスペースに追加され、コンピューティングリソースがワークスペースのDataStudioサービスに関連付けられています。この場合、DataStudioページに [maxcompute] フォルダーが表示されます。

MaxComputeデータソースがワークスペースに追加されています。詳細については、「MaxComputeデータソースの追加」をご参照ください。
コンピューティングリソースがワークスペースのDataStudioサービスに関連付けられています。ワークスペースの [datastudio] ページの左側のナビゲーションペインで [コンピューティングリソース] をクリックし、コンピューティングリソースをワークスペースのDataStudioサービスに関連付けることができます。
異なるコンピューティングエンジンタイプのタスクで使用されるリソースグループが、DataAnalysisの [システム管理] ページで構成されています。詳細については、「システム管理」をご参照ください。

重要

DataAnalysis の [システム管理] ページで、異なるコンピューティングエンジンの種類のタスクで使用されるリソースグループが構成されていない場合、「現在のファイルソースまたはターゲットエンジンは、データアップロード用のリソースグループを構成する必要があります。スペース管理者に連絡して、リソースグループを構成してください」というエラーメッセージが表示されます。

背景情報

bank_dataテーブルはビジネスデータを格納するために使用され、result_tableテーブルはデータ分析結果を格納するために使用されます。

bank_dataテーブルの作成

[datastudio] ページに移動します。
DataWorksコンソールにログオンします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションペインで、[データ開発とガバナンス] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
[datastudio] ページの [スケジュール済みワークフロー] ペインで、アイコンにポインターを移動し、[テーブルの作成] > [maxcompute] > [テーブル] を選択します。
または、[ビジネスフロー] セクションで目的のワークフローをクリックし、[maxcompute] を右クリックして、[テーブルの作成] を選択することもできます。
[テーブルの作成] ダイアログボックスで、[パス] を指定し、[名前] を bank_data に設定して、[作成] をクリックします。
テーブル構成タブで、[DDL] をクリックします。

[DDL] ダイアログボックスで、次のステートメントを入力し、[テーブルスキーマの生成] をクリックします。

CREATE TABLE IF NOT EXISTS bank_data
(
 age             BIGINT COMMENT '年齢',
 job             STRING COMMENT '職種',
 marital         STRING COMMENT '婚姻状況',
 education       STRING COMMENT '学歴',
 default         STRING COMMENT 'クレジットカード',
 housing         STRING COMMENT '住宅ローン',
 loan            STRING COMMENT 'ローン',
 contact         STRING COMMENT '連絡先',
 month           STRING COMMENT '月',
 day_of_week     STRING COMMENT '曜日',
 duration        STRING COMMENT '通話時間',
 campaign        BIGINT COMMENT 'キャンペーン中の連絡回数',
 pdays           DOUBLE COMMENT '最後の連絡からの間隔',
 previous        DOUBLE COMMENT '顧客との連絡回数',
 poutcome        STRING COMMENT '前回のマーケティング キャンペーンの結果',
 emp_var_rate    DOUBLE COMMENT '雇用変化率',
 cons_price_idx  DOUBLE COMMENT '消費者物価指数',
 cons_conf_idx   DOUBLE COMMENT '消費者信頼感指数',
 euribor3m       DOUBLE COMMENT 'ユーロ預金金利',
 nr_employed     DOUBLE COMMENT '従業員数',
 y               BIGINT COMMENT '定期預金の有無'
);

テーブルを作成するためのSQL構文の詳細については、「テーブルの作成」をご参照ください。

[確認] メッセージで、[確認] をクリックします。
表示名[一般] セクションの 開発環境にコミット本番環境にコミット パラメーターを構成し、とをそれぞれクリックします。
説明
この例では、標準モードのワークスペースを使用しています。ベーシックモードのワークスペースを使用している場合は、[本番環境にコミット] をクリックするだけで済みます。
左側のナビゲーションペインで、[ワークスペーステーブル] アイコンをクリックします。
[ワークスペーステーブル] ペインで、作成したテーブルの名前をダブルクリックして、テーブル情報を表示します。

result_tableテーブルの作成

[datastudio] ページの [スケジュール済みワークフロー] ペインで、アイコンにポインターを移動し、[テーブルの作成] > [maxcompute] を選択します。
または、[ビジネスフロー] セクションで目的のワークフローをクリックし、[maxcompute] を右クリックして、[テーブルの作成] を選択することもできます。
[テーブルの作成] ダイアログボックスで、[パス] を指定し、[名前] を result_table に設定して、[作成] をクリックします。
[DDL] ダイアログボックスで、次のステートメントを入力し、[テーブルスキーマの生成] をクリックします。
```
CREATE TABLE IF NOT EXISTS result_table
(  
 education   STRING COMMENT '学歴',
 num         BIGINT COMMENT '人数'
);
```
[確認] メッセージで、[確認] をクリックします。
表示名[一般] セクションの 開発環境にコミット本番環境にコミット パラメーターを構成し、とをそれぞれクリックします。
左側のナビゲーションペインで、[ワークスペーステーブル] アイコンをクリックします。
[ワークスペーステーブル] ペインで、作成したテーブルの名前をダブルクリックして、テーブル情報を表示します。

オンプレミスマシンから bank_dataテーブルにファイルをアップロードする

DataWorksでは、次の操作を実行できます。

オンプレミスマシンからワークスペースのテーブルにテキストファイルをアップロードする。
Data Integrationを使用して、さまざまなデータソースからワークスペースにビジネスデータをインポートする。

説明

オンプレミスマシンからファイルをアップロードする場合は、次の点に注意する必要があります。

ファイル形式: ファイルは .txt、.csv、または .log 形式である必要があります。
ファイルサイズ: ファイルのサイズは 30 MBを超えることはできません。
30 MBを超えるファイルをアップロードする必要がある場合は、次のいずれかの方法を使用します。
- ファイルをオブジェクトストレージサービス (OSS) にアップロードし、MaxComputeの外部テーブルを使用してオブジェクトデータをMaxComputeテーブルにインポートします。OSSへのファイルのアップロード方法については、「オブジェクトのアップロード」をご参照ください。MaxComputeの外部テーブルの使用方法については、「外部テーブル」をご参照ください。
- ファイルをOSSにアップロードし、Data Integrationを使用してオブジェクトデータをMaxComputeテーブルに同期します。OSSへのファイルのアップロード方法については、「オブジェクトのアップロード」をご参照ください。OSSからMaxComputeへのデータの同期方法については、「コードレスUIを使用したバッチ同期タスクの構成」をご参照ください。
- [dataanalysis] が提供する [データアップロード] 機能を使用します。
テーブルタイプ: ファイルからパーティションテーブルまたは非パーティションテーブルにデータをインポートできます。ファイルをパーティションテーブルにインポートする場合、パーティション列の値にアンパサンド (&) やアスタリスク (*) などの特殊文字を含めることはできません。

この例では、banking.txt ファイルをオンプレミスマシンから bank_dataテーブルにアップロードします。ファイルをアップロードするには、次の手順を実行します。

[datastudio] ページのアイコンをクリックします。
[開発環境のテーブルにローカルデータをインポート] ダイアログボックスで、検索ボックスに少なくとも 3 文字を入力してテーブルを検索し、検索結果から bank_data を選択して、[次へ] をクリックします。
説明
作成したテーブルが見つからない場合は、DataWorksのデータマップにテーブルを手動で同期できます。その後、ダイアログボックスでキーワードを使用してテーブルを再度検索できます。テーブルを手動で同期する方法については、「テーブルメタデータの手動更新」をご参照ください。

表示されたダイアログボックスで、参照[ファイルの選択] の横にある データインポート方法の選択ローカルファイルのアップロード をクリックして、目的のファイルを選択します。パラメーターの値はで、変更できません。次に、その他のパラメーターを構成します。

bank

パラメーター	説明
データインポート方法の選択	データのアップロードに使用できる方法。デフォルト値: ローカルファイルのアップロード。デフォルト値は変更できません。
ファイル形式	有効な値: CSV およびカスタムテキストファイル。
ファイルの選択	アップロードするファイル。[参照] をクリックしてアップロードするファイルを選択することで、ファイルをアップロードできます。
区切り文字の選択	ファイルで使用される区切り文字。有効な値: カンマ (,)、タブ、セミコロン (;)、スペース、\|、#、および &。この例では、カンマ (,) が選択されています。
元の文字セット	ファイルの文字セット。有効な値: GBK、UTF-8、CP936、および ISO-8859。この例では、GBK が選択されています。
最初の行をインポート	データのインポートを開始する行。この例では、1 が選択されています。
最初の行をフィールド名として使用	最初の行をヘッダー行として使用するかどうかを指定します。この例では、はいは選択されていません。
プレビュー	アップロードするデータのプレビュー結果。

[次へ] をクリックします。
ソースファイルとデスティネーションテーブルのフィールドの一致モードを選択します。この例では、[場所別] が選択されています。
[データのインポート] をクリックします。

次のステップ

テーブルを作成し、オンプレミスマシンから作成したテーブルにデータをアップロードする方法を学習しました。次のチュートリアルに進むことができます。次のチュートリアルでは、ワークフローの作成、構成、コミット、およびワークスペースでのデータコンピューティングと分析の実行方法について学習します。詳細については、「ワークフローの作成」をご参照ください。