ここでは MySQL データソースを例に、データ統合機能を使った MaxCompute から MySQL データソースへのエクスポートの方法について説明します。
DataWorks においてデータ統合は一般的に、システムで生成した業務データを SQL タスク計算後のワークスペース内に定期的にインポートすることで使用されます。
詳細情報または実行使用料の確認のために、計算結果は指定したデータソースに定期的にエクスポートされます。
データ統合機能によって、現在以下のデータソースのインポート、エクスポートが可能です: RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、ApsaraDB for Memcache、DRDS、OSS、Oracle、FTP、DM、Hdfs、MongoDB 等。 詳細は、『サポートされるデータソース』をご参照ください。
前提条件
- ECS 上でオンプレミスのデータベースを使用している場合、ECS に [セキュリティグループの追加] を行う必要があります。
- RDS や MongoDB などのデータソースを使用している場合、データソースコンソールに [ホワイトリストの追加] を行う必要があります。
注 カスタムのリソースグループを使用して RDS データ同期タスクをスケジュールする場合、カスタムのリソースグループをホストするコンピューターの IP アドレスを RDS ホワイトリストに追加する必要があります。
手順
データソースの追加
注 プロジェクト管理者ロールのみが新規データソースを作成でき、その他ロールメンバーはデータソースの閲覧のみ可能です。
- プロジェクト管理者として [DataWorks 管理コンソール] にログインします。
- [項目リスト] 下の該当するアクション項目列にある [ワークスペースに参加] を選択します。
- 上部メニューバーにある [データの統合] をクリックします。
- 左側のナビゲーションペインで [データソース] をクリックします。
- 右上隅の [プロジェクトの作成] をクリックします。
- [データソース追加] ダイアログボックスの各設定項目に入力します。
- データソースの種類: パブリック ID アドレス
- データソース名: 名称には文字、数字、アンダーラインを含む必要があり、数字またはアンダーラインで開始することはできません。 例: abc_1123
- データソースの記述: 80 文字以内で記述します。
- JDBC URL:
jdbc:mysql://host:port/database
. - ユーザー名/パスワード: データベースへの接続時に使用されるユーザ名とパスワードです。
異なるデータソース種類の設定指示については『データソースの設定』をご参照ください。
- (任意) 関連項目の必要情報を入力したら、 [接続テスト] をクリックします。
- テスト接続が完了したら、 [完了] をクリックします。
注 対象の MySQL データベースがテーブルを含んでいるか確認します。
MySQL データベースで odps_result テーブルを作成します。 テーブル作成時に使用されるステートメントは以下のとおりです。
CREATE TABLE `ODPS_RESULT` (
`education` varchar(255) NULL ,
`num` int(10) NULL
)
テーブルの作成が完了したら、desc odps_result;
を実行してテーブルの詳細を閲覧できます。
同期ノードの作成と設定
ここでは、write_result の同期ノードの作成と設定について、また、result_table からのデータを MySQL データベースに書き込む方法について説明します。 詳細な手順は以下のとおりです。
- 以下の図に示すとおり、ノードを作成します。
- write_result ノードが insert_data ノードに依存するような、ノード間の依存関係を設定します。
- データソースを選択します。
MaxCompute のデータソースとソーステーブルを選択して [次へ] をクリックします。
- ターゲットを選択します。
MySQL データソースと対象テーブルの ODPS _resultを選択して [次へ] をクリックします。
- フィールドをマップします。
フィールド間のマッピングを選択します。 フィールドのマッピング関係を設定する必要があります。 左側の "ソーステーブルフィールド" は、右側の"ターゲットテーブルフィールド"と 1 対 1 で対応しています。
- チャンネルを操作します。
[次へ] をクリックして、最大ジョブレートとダーティデータチェックルールを設定できます。
- プレビューと格納。
上記の設定が完了したら、タスク設定を閲覧するためにマウスを上下にスクロールします。設定が完了していない場合は、 [保存] をクリックします。
データ同期タスクの送信
同期タスクを保存したら、 [送信] をクリックしてスケジューリングシステムにタスクを送信します。 スケジューリングシステムは、設定属性に従ってジョブを 2 日目から自動的かつ定期的に実行します。
次のステップ
ここでは、同期タスクの作成と異なるデータソースへのデータエクスポートの方法について説明しました。 続いて、同期タスクのスケジュール属性と依存関係の設定に関して説明します。 詳細はタスクの『スケジュールプロパティと依存関係の設定』をご参照ください。