Amazon S3 出力コンポーネントを構成して、外部データベースから Amazon S3 にデータを書き込んだり、接続されているストレージシステムからビッグデータプラットフォームにデータをコピーしてプッシュし、データ統合と再処理を行ったりします。このトピックでは、Amazon S3 出力コンポーネントの構成プロセスについて説明します。
前提条件
Amazon S3 データソースが作成されていること。詳細については、「Amazon S3 データソースを作成する」をご参照ください。
Amazon S3 出力コンポーネントのプロパティを構成するには、アカウントにデータソースに対するリードスルー権限が必要です。この権限がない場合は、リクエストする必要があります。詳細については、「データソース権限をリクエストする」をご参照ください。
手順
Dataphin ホームページの上部メニューバーから、[開発] > [data Integration] を選択します。
統合ページの上部メニューバーで、プロジェクト を選択します(開発 - 本番モードでは環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発する オフライン パイプライン をクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[出力] を選択します。次に、出力コンポーネントの右側のリストで、[amazon S3] コンポーネントを見つけて、キャンバスにドラッグします。
ターゲットのアップストリームコンポーネントから
アイコンをクリックしてドラッグし、Amazon S3 出力コンポーネントに接続します。Amazon S3 出力コンポーネントカードの
アイコンをクリックして、[amazon S3 出力構成] ダイアログボックスを開きます。
[amazon S3 出力構成] ダイアログボックスで、次の表に示すようにパラメーターを設定します。
パラメーター
説明
基本設定
ステップ名
これは Amazon S3 出力コンポーネントの名前です。Dataphin はステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更できます。命名規則は次のとおりです。
漢字、英字、アンダースコア(_)、数字のみ使用できます。
64 文字を超えることはできません。
データソース
データソースのドロップダウンリストには、書き込みスルー権限を持つデータソースと持たないデータソースを含む、すべての Amazon S3 タイプのデータソースが表示されます。
アイコンをクリックして、現在のデータソース名をコピーします。書き込みスルー権限のないデータソースの場合、データソースの後に [リクエスト] をクリックして、書き込みスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト、更新、および返却」をご参照ください。
Amazon S3 タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「Amazon S3 データソースを作成する」をご参照ください。
ファイルタイプ
データが変換されて保存されるファイルタイプを選択します。[ファイルタイプ] には、[テキスト] と [CSV] が含まれます。
ファイルエンコーディング
ターゲットデータソースにファイルを保存するためのコーデックを選択します。[ファイルエンコーディング] には、[UTF-8] と [GBK] が含まれます。
オブジェクトプレフィックス
Amazon S3 オブジェクトの [オブジェクトプレフィックス] 情報を入力します。オブジェクトは Amazon S3 におけるデータストレージの基本単位であり、Amazon S3 ファイルとも呼ばれます。オブジェクトは、メタデータ、ユーザーデータ、およびキーで構成されます。キーは、バケット内でオブジェクトを一意に識別します。データソースにディレクトリが構成されている場合、ここに自動的に表示されます。変更することはできますが、他のディレクトリに対する権限があることを確認してください。そうでない場合、タスクは失敗します。
プレフィックスの競合
オブジェクトプレフィックスの競合が発生した場合の実行ポリシー。元のファイルの置換、元のファイルへの追加、または競合発生時のエラー報告をサポートしています。
元のファイルを置換する:書き込む前に、指定されたオブジェクトプレフィックスに一致するすべてのオブジェクトをクリアします。たとえば、オブジェクトプレフィックスが Dataphin の場合、Dataphin で始まるすべてのオブジェクトがクリアされます。
元のファイルに追加する:書き込む前に処理は行われません。構成されたオブジェクトプレフィックスが書き込みに直接使用され、ファイル名が競合しないようにランダムな UUID サフィックスが使用されます。
競合が発生した場合にエラーを報告する:指定されたパスに指定されたプレフィックスに一致するオブジェクトが表示された場合、エラーが直接報告されます。たとえば、オブジェクトプレフィックスが Dataphin で、Dataphin という名前のオブジェクトがある場合、エラーが直接報告されます。
書き込むファイルの数
ターゲット Amazon S3 のファイル書き込みポリシー。単一ファイルへの書き込みまたは複数ファイルへの書き込みをサポートしています。
単一ファイル:ターゲット Amazon S3 上の単一ファイルに書き込みます。
複数ファイル:ターゲット Amazon S3 上の複数ファイルに書き込みます。また、サフィックス形式を構成する必要もあります。これは、
_0、_1、_2などの生成されたシーケンスサフィックス、または生成された UUID 乱数サフィックスです。ファイルの数は、タスクの同時実行性です。説明複数ファイルに書き込む場合、タスクの同時実行性が 1 に構成されている場合でも、サフィックスが生成されます。
_1またはuuidランダムサフィックス。プレフィックス競合ポリシーが元のファイルに追加する場合、UUID 乱数サフィックスのみ生成できます。
詳細構成
列区切り文字
列区切り文字を使用してターゲットテーブルに書き込みます。指定しない場合、デフォルトはカンマ(,)です。
行区切り文字
行区切り文字を使用してターゲットテーブルに書き込みます。指定しない場合、デフォルトは改行(\n)です。
NULL 値
オプション。NULL 値の文字列を表します。
ファイル名拡張子
.csv、.textなどをオブジェクトの最後のサフィックスとして構成できます。指定しない場合は空です。出力フィールド名にする
[はい] を選択すると、アップストリームコンポーネントのフィールド名が出力ファイルの最初の行として使用されます。[いいえ] を選択すると、フィールド名が出力されません。
フィールドマッピング
入力フィールド
アップストリーム入力コンポーネントの出力フィールドが表示されます。
出力フィールド
出力フィールドが表示されます。Dataphin は、[一括追加] と [新しい出力フィールドの作成] による出力フィールドの構成をサポートしています。
[一括追加]:[一括追加] をクリックすると、JSON または TEXT 形式での一括構成がサポートされます。
JSON 形式での一括構成。例:
// 例: [{"name": "user_id","type": "String"}, {"name": "user_name","type": "String"}]説明name は導入されたフィールドの名前を表し、type は導入されたフィールドのタイプを表します。たとえば、
"name":"user_id","type":"String"は、user_id という名前のフィールドが導入され、フィールドタイプが String に設定されていることを示します。TEXT 形式での一括構成。例:
// 例: user_id,String user_name,String行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行(\n)です。改行(\n)、セミコロン(;)、ピリオド(.)をサポートしています。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ(,)です。
新しい出力フィールドを作成する。
[+ 新しい出力フィールドを作成] をクリックし、ページのプロンプトに従って [列] を入力し、[タイプ] を選択します。
アップストリームフィールドをコピーする。
[アップストリームフィールドをコピー] をクリックします。システムは、アップストリームフィールド名に基づいて出力フィールドを自動的に生成します。
出力フィールドを管理する。
追加されたフィールドに対して次の操作を実行することもできます。
[アクション] 列の
アイコンをクリックして、既存のフィールドを編集します。[アクション] 列の
アイコンをクリックして、既存のフィールドを削除します。
マッピング
マッピング関係は、ソーステーブルの入力フィールドをターゲットテーブルの出力フィールドにマッピングするために使用され、後続のデータ同期を容易にします。マッピング関係には、同一名マッピングと同列マッピングが含まれます。該当するシナリオは次のとおりです。
[同一名マッピング]:同じフィールド名を持つフィールドをマッピングします。
[同列マッピング]:ソーステーブルとターゲットテーブルのフィールド名は一致しませんが、フィールドの対応する行のデータをマッピングする必要があります。同じ行のフィールドのみがマッピングされます。
[確認] をクリックして、Amazon S3 出力コンポーネントの構成を完了します。