このトピックでは、DataWorksコンソールでテーブルを作成し、オンプレミス マシンからテーブルにデータをアップロードする方法について説明します。例では、bank_dataテーブルとresult_tableテーブルを使用します。
前提条件
MaxComputeデータソースがワークスペースに追加され、コンピューティング リソースがワークスペースのDataStudioサービスに関連付けられています。この場合、DataStudioページに [maxcompute] フォルダーが表示されます。
MaxComputeデータソースがワークスペースに追加されています。詳細については、「MaxComputeデータソースの追加」をご参照ください。
コンピューティング リソースがワークスペースのDataStudioサービスに関連付けられています。ワークスペースの [datastudio] ページの左側のナビゲーション ペインで [コンピューティング リソース] をクリックし、コンピューティング リソースをワークスペースのDataStudioサービスに関連付けることができます。
異なるコンピューティング エンジン タイプのタスクで使用されるリソース グループが、DataAnalysisの [システム管理] ページで構成されています。詳細については、「システム管理」をご参照ください。
DataAnalysis の [システム管理] ページで、異なるコンピューティングエンジンの種類のタスクで使用されるリソースグループが構成されていない場合、「現在のファイルソースまたはターゲットエンジンは、データアップロード用のリソースグループを構成する必要があります。スペース管理者に連絡して、リソースグループを構成してください
」というエラーメッセージが表示されます。
背景情報
bank_dataテーブルはビジネス データを格納するために使用され、result_tableテーブルはデータ分析結果を格納するために使用されます。
bank_dataテーブルの作成
[datastudio] ページに移動します。
DataWorksコンソール にログオンします。上部のナビゲーション バーで、目的のリージョンを選択します。左側のナビゲーション ペインで、 を選択します。表示されたページで、ドロップダウン リストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
[datastudio] ページの [スケジュール済みワークフロー] ペインで、
アイコンにポインターを移動し、 を選択します。
または、[ビジネス フロー] セクションで目的のワークフローをクリックし、[maxcompute] を右クリックして、[テーブルの作成] を選択することもできます。
[テーブルの作成] ダイアログ ボックスで、[パス] を指定し、[名前] を bank_data に設定して、[作成] をクリックします。
テーブル構成タブで、[DDL] をクリックします。
[DDL] ダイアログ ボックスで、次のステートメントを入力し、[テーブル スキーマの生成] をクリックします。
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年齢', job STRING COMMENT '職種', marital STRING COMMENT '婚姻状況', education STRING COMMENT '学歴', default STRING COMMENT 'クレジットカード', housing STRING COMMENT '住宅ローン', loan STRING COMMENT 'ローン', contact STRING COMMENT '連絡先', month STRING COMMENT '月', day_of_week STRING COMMENT '曜日', duration STRING COMMENT '通話時間', campaign BIGINT COMMENT 'キャンペーン中の連絡回数', pdays DOUBLE COMMENT '最後の連絡からの間隔', previous DOUBLE COMMENT '顧客との連絡回数', poutcome STRING COMMENT '前回のマーケティング キャンペーンの結果', emp_var_rate DOUBLE COMMENT '雇用変化率', cons_price_idx DOUBLE COMMENT '消費者物価指数', cons_conf_idx DOUBLE COMMENT '消費者信頼感指数', euribor3m DOUBLE COMMENT 'ユーロ預金金利', nr_employed DOUBLE COMMENT '従業員数', y BIGINT COMMENT '定期預金の有無' );
テーブルを作成するためのSQL構文の詳細については、「テーブルの作成」をご参照ください。
[確認] メッセージで、[確認] をクリックします。
表示名[一般] セクションの 開発環境にコミット本番環境にコミット パラメーターを構成し、 と をそれぞれクリックします。
説明この例では、標準モードのワークスペースを使用しています。ベーシック モードのワークスペースを使用している場合は、[本番環境にコミット] をクリックするだけで済みます。
左側のナビゲーション ペインで、[ワークスペース テーブル] アイコンをクリックします。
[ワークスペース テーブル] ペインで、作成したテーブルの名前をダブルクリックして、テーブル情報を表示します。
result_tableテーブルの作成
[datastudio] ページの [スケジュール済みワークフロー] ペインで、
アイコンにポインターを移動し、 を選択します。
または、[ビジネス フロー] セクションで目的のワークフローをクリックし、[maxcompute] を右クリックして、[テーブルの作成] を選択することもできます。
[テーブルの作成] ダイアログ ボックスで、[パス] を指定し、[名前] を result_table に設定して、[作成] をクリックします。
[DDL] ダイアログ ボックスで、次のステートメントを入力し、[テーブル スキーマの生成] をクリックします。
CREATE TABLE IF NOT EXISTS result_table ( education STRING COMMENT '学歴', num BIGINT COMMENT '人数' );
[確認] メッセージで、[確認] をクリックします。
表示名[一般] セクションの 開発環境にコミット本番環境にコミット パラメーターを構成し、 と をそれぞれクリックします。
左側のナビゲーション ペインで、[ワークスペース テーブル] アイコンをクリックします。
[ワークスペース テーブル] ペインで、作成したテーブルの名前をダブルクリックして、テーブル情報を表示します。
オンプレミス マシンから bank_dataテーブルにファイルをアップロードする
DataWorksでは、次の操作を実行できます。
オンプレミス マシンからワークスペースのテーブルにテキスト ファイルをアップロードする。
Data Integrationを使用して、さまざまなデータソースからワークスペースにビジネス データをインポートする。
オンプレミス マシンからファイルをアップロードする場合は、次の点に注意する必要があります。
ファイル形式: ファイルは .txt、.csv、または .log 形式である必要があります。
ファイル サイズ: ファイルのサイズは 30 MBを超えることはできません。
30 MBを超えるファイルをアップロードする必要がある場合は、次のいずれかの方法を使用します。
ファイルをオブジェクト ストレージ サービス (OSS) にアップロードし、MaxComputeの外部テーブルを使用してオブジェクト データをMaxComputeテーブルにインポートします。OSSへのファイルのアップロード方法については、「オブジェクトのアップロード」をご参照ください。MaxComputeの外部テーブルの使用方法については、「外部テーブル」をご参照ください。
ファイルをOSSにアップロードし、Data Integrationを使用してオブジェクト データをMaxComputeテーブルに同期します。OSSへのファイルのアップロード方法については、「オブジェクトのアップロード」をご参照ください。OSSからMaxComputeへのデータの同期方法については、「コードレスUIを使用したバッチ同期タスクの構成」をご参照ください。
[dataanalysis] が提供する [データ アップロード] 機能を使用します。
テーブル タイプ: ファイルからパーティション テーブルまたは非パーティション テーブルにデータをインポートできます。ファイルをパーティション テーブルにインポートする場合、パーティション列の値にアンパサンド (&) やアスタリスク (*) などの特殊文字を含めることはできません。
この例では、banking.txt ファイルをオンプレミス マシンから bank_dataテーブルにアップロードします。ファイルをアップロードするには、次の手順を実行します。
[datastudio] ページの
アイコンをクリックします。
[開発環境のテーブルにローカル データをインポート] ダイアログ ボックスで、検索ボックスに少なくとも 3 文字を入力してテーブルを検索し、検索結果から bank_data を選択して、[次へ] をクリックします。
説明作成したテーブルが見つからない場合は、DataWorksのデータ マップにテーブルを手動で同期できます。その後、ダイアログ ボックスでキーワードを使用してテーブルを再度検索できます。テーブルを手動で同期する方法については、「テーブル メタデータの手動更新」をご参照ください。
表示されたダイアログ ボックスで、参照[ファイルの選択] の横にある データインポート方法の選択ローカル ファイルのアップロード をクリックして、目的のファイルを選択します。 パラメーターの値は で、変更できません。次に、その他のパラメーターを構成します。
パラメーター
説明
データ インポート方法の選択
データのアップロードに使用できる方法。デフォルト値: ローカル ファイルのアップロード。デフォルト値は変更できません。
ファイル形式
有効な値: CSV および カスタム テキスト ファイル。
ファイルの選択
アップロードするファイル。[参照] をクリックしてアップロードするファイルを選択することで、ファイルをアップロードできます。
区切り文字の選択
ファイルで使用される区切り文字。有効な値: カンマ (,)、タブ、セミコロン (;)、スペース、|、#、および &。この例では、カンマ (,) が選択されています。
元の文字セット
ファイルの文字セット。有効な値: GBK、UTF-8、CP936、および ISO-8859。この例では、GBK が選択されています。
最初の行をインポート
データのインポートを開始する行。この例では、1 が選択されています。
最初の行をフィールド名として使用
最初の行をヘッダー行として使用するかどうかを指定します。この例では、はい は選択されていません。
プレビュー
アップロードするデータのプレビュー結果。
[次へ] をクリックします。
ソース ファイルとデスティネーション テーブルのフィールドの一致モードを選択します。この例では、[場所別] が選択されています。
[データのインポート] をクリックします。
次のステップ
テーブルを作成し、オンプレミス マシンから作成したテーブルにデータをアップロードする方法を学習しました。次のチュートリアルに進むことができます。次のチュートリアルでは、ワークフローの作成、構成、コミット、およびワークスペースでのデータ コンピューティングと分析の実行方法について学習します。詳細については、「ワークフローの作成」をご参照ください。