PolarDB-X 1.0 データの Elasticsearch への同期 - Data Transmission Service

このトピックでは、Data Transmission Service (DTS) を使用して、PolarDB-X 1.0 から Elasticsearch へデータを同期する方法について説明します。

前提条件

ソースの PolarDB-X 1.0 インスタンスは、RDS for MySQL をストレージタイプとして使用している必要があります。これには、カスタム RDS for MySQL インスタンスおよびスタンドアロン RDS for MySQL インスタンスが含まれます。PolarDB for MySQL はサポートされていません。
宛先の Elasticsearch インスタンスを作成済みである必要があります。詳細については、「Alibaba Cloud Elasticsearch インスタンスの作成」をご参照ください。
宛先の Elasticsearch インスタンスのストレージ容量は、ソースの PolarDB-X 1.0 インスタンスのストレージ容量より大きい必要があります。

重要事項

種別	説明
ソースデータベースの制限事項	同期対象のテーブルには、PRIMARY KEY 制約または UNIQUE 制約が必要です。UNIQUE 制約のみを持つテーブルでは、スキーマ同期はサポートされません。PRIMARY KEY 制約の使用を推奨します。制約内のフィールドは一意である必要があります。そうでない場合、宛先データベースに重複データが存在する可能性があります。テーブルを同期対象オブジェクトとして選択し、カラム名のマッピングなどの編集を行う場合は、1 つのデータ同期タスクで最大 1,000 個のテーブルを同期できます。テーブル数がこの上限を超えると、タスク送信後にリクエストエラーが報告されます。この場合、テーブルを複数のタスクに分割するか、タスクを設定してデータベース全体を同期することを推奨します。 RDS for MySQL インスタンスのバイナリログ（PolarDB-X 1.0 にアタッチ）：デフォルトでバイナリロギングが有効になっています。「binlog_row_image」パラメーターが「full」に設定されているか確認する方法については、「インスタンスパラメーターの表示」をご参照ください。このパラメーターが「full」に設定されていない場合、事前チェックでエラーが報告され、データ同期タスクを開始できません。増分データ同期のみを実行する場合、ソースデータベースのバイナリログは最低 24 時間保持する必要があります。完全データ同期と増分データ同期の両方を実行する場合、ソースデータベースのバイナリログは最低 7 日間保持する必要があります。完全データ同期完了後、保持期間を 24 時間以上に設定できます。それ以外の場合、DTS がバイナリログを取得できず、タスクが失敗したり、データ不整合やデータ損失が発生したりする可能性があります。バイナリログの保持期間が要件を満たさないために発生した問題は、DTS のサービスレベルアグリーメント（SLA）の対象外となります。ソースデータベースに対する操作の制限事項：データ同期中に PolarDB-X 1.0 インスタンスのネットワークタイプを変更する場合、データ同期リンクのネットワーク接続情報も変更する必要があります。データ同期中は、ソースインスタンスのスケールアウトまたはスケールイン、ホットスポットテーブルの同期、シャードキーの変更、DDL 変更などの操作を実行しないでください。そうしないと、データ同期タスクが失敗したり、データ不整合が発生したりします。完全データ同期のみを実行する場合、ソースインスタンスへの新規データの書き込みを行わないでください。そうしないと、ソースおよび宛先インスタンス間でデータ不整合が発生します。リアルタイムのデータ整合性を確保するため、スキーマ同期、完全データ同期、増分データ同期のすべてを選択することを推奨します。スキーマ同期または完全同期中に、データベースまたはテーブルのスキーマを変更する DDL 操作を実行しないでください。そうしないと、同期タスクが失敗します。説明完全同期中、DTS はソースデータベースをクエリします。これによりメタデータロックが生成され、ソースデータベースでの DDL 操作がブロックされる可能性があります。ソースの PolarDB-X 1.0 インスタンスのバージョンは、5.2 以降である必要があります。
その他の制限事項	DTS は、INDEX、PARTITION、VIEW、PROCEDURE、FUNCTION、TRIGGER、FOREIGN KEY 制約の同期をサポートしていません。ソースデータベースのテーブルに列を追加するには、まず Elasticsearch インスタンス内の対応するマッピングを変更します。次に、ソースデータベースで DDL 文を実行します。最後に、同期タスクを一時停止して再開します。親子関係または Join フィールドタイプを含む Elasticsearch インデックスへのデータ同期はできません。これを実行すると、タスクエラーまたは宛先でのクエリ失敗が発生する可能性があります。 DTS は、ソースの PolarDB-X 1.0 インスタンスにおける XA トランザクションの連続性に基づき、増分同期タスクのデータ整合性を保証します。XA トランザクションの連続性が中断された場合（例：同期対象の変更や増分データ収集モジュールのディザスタリカバリなど）、未コミットの XA トランザクションが失われる可能性があります。同期を開始する前に、ソースおよび宛先データベースのパフォーマンスを評価してください。業務の非ピーク時間帯に同期を実行してください。そうしないと、完全同期によって両データベースの読み取りおよび書き込みリソースが大幅に消費され、データベース負荷が増加する可能性があります。 DTS は、失敗した同期タスクを 7 日間以内に自動的に復旧しようと試みます。宛先インスタンスへのトラフィック切り替え前に、同期タスクを終了または解放するか、`revoke` コマンドを使用して、宛先インスタンス上の DTS アカウントの書き込み権限を取り消してください。これにより、自動復旧による宛先データへのソースデータの上書きを防ぎます。 Elasticsearch インスタンスの開発およびテスト仕様はサポートされていません。タスクが失敗した場合、DTS サポートスタッフが 8 時間以内に復旧を試みます。復旧中、タスクを再起動したり、パラメーターを調整したりすることがあります。説明変更されるのは DTS タスクのパラメーターのみであり、データベースのパラメーターではありません。調整可能なパラメーターの一覧については、「インスタンスパラメーターの変更」をご参照ください。
その他の注意事項	DTS は、バイナリログオフセットを進めるために、ソースデータベース内の `dts_health_check`.`ha_health_check` テーブルを定期的に更新します。

課金

同期タイプ	料金
スキーマ同期および完全データ同期	無料です。
増分データ同期	課金対象です。詳細については、「課金の概要」をご参照ください。

増分同期でサポートされる SQL 操作

操作タイプ	SQL 操作
DML	INSERT、UPDATE、DELETE 説明 UPDATE 文を使用してフィールドを削除することはできません。

データベースアカウントの権限

データベース	必要な権限	アカウントの作成および権限付与方法
ソースの PolarDB-X 1.0 インスタンス	同期対象オブジェクトに対する読み取り権限。	アカウント管理
宛先の Elasticsearch インスタンス	データベースアカウントには読み取りおよび書き込み権限が必要です。デフォルトのアカウントは elastic です。

データ型のマッピング

ソースデータベースと Elasticsearch インスタンスではサポートされるデータ型が異なるため、データ型を常に直接マッピングできるわけではありません。初期スキーマ同期時に、DTS は宛先の Elasticsearch インスタンスがサポートするデータ型に基づいてデータ型をマッピングします。詳細については、「初期スキーマ同期におけるデータ型のマッピング」をご参照ください。
説明
DTS は、スキーマ移行中に mapping パラメーターを dynamic に設定しません。このパラメーターの動作は、Elasticsearch インスタンスの設定に依存します。ソースデータが JSON 形式の場合、テーブル内のすべての行で同じキーの値が同じデータ型であることを確認してください。そうしないと、DTS が同期エラーを報告する可能性があります。詳細については、「dynamic」をご参照ください。
以下の表は、Elasticsearch とリレーショナルデータベース間のマッピングを示しています。
Elasticsearch
リレーショナルデータベース
インデックス
データベース
タイプ
テーブル
ドキュメント
行
フィールド
カラム
マッピング
データベーススキーマ

操作手順

宛先リージョンの同期タスク一覧ページに移動します。以下のいずれかの方法を使用できます：
DTS コンソールから
1. Data Transmission Service (DTS) コンソールにログインします。
2. 左側のナビゲーションウィンドウで、データ同期 をクリックします。
3. ページの左上隅で、同期インスタンスが配置されているリージョンを選択します。
DMS コンソールから
説明
実際の操作は、DMS コンソールのモードおよびレイアウトによって異なります。詳細については、「シンプルモード」および「DMS インターフェイスのレイアウトおよびスタイルのカスタマイズ」をご参照ください。
1. Data Management (DMS) にログインします。
2. トップメニューで、Data + AI > Data Transmission (DTS) > データ同期 を選択します。
3. データ同期タスク の右側で、同期インスタンスが配置されているリージョンを選択します。
タスクの作成 をクリックして、タスク構成ページを開きます。

ソースおよび宛先データベースを構成します。

カテゴリ	構成	説明
なし	タスク名	DTS がタスク名を自動生成します。識別しやすいように、説明的な名前を指定することを推奨します。名前は一意である必要はありません。
移行元データベース	既存の接続情報の選択	システムに追加済みのデータベースインスタンス（新規作成または保存済み）を使用する場合、ドロップダウンリストからデータベースインスタンスを選択します。データベース情報は自動的に構成されます。説明 DMS コンソールでは、この構成項目の名称は DMS データベースインスタンスの選択です。データベースインスタンスをシステムに追加していない場合、または既に追加済みのインスタンスを使用する必要がない場合は、以下のデータベース情報を手動で構成します。
	データベースタイプ	PolarDB-X 1.0 を選択します。
	アクセス方法	Alibaba Cloud インスタンスを選択します。
	インスタンスのリージョン	ソースの PolarDB-X 1.0 インスタンスが配置されているリージョンを選択します。
	Alibaba Cloud アカウント間でデータを複製	この例では、ソースおよび宛先に同一の Alibaba Cloud アカウントを使用します。× を選択します。
	インスタンス ID	ソースの PolarDB-X 1.0 インスタンスのインスタンス ID を選択します。
	データベースアカウント	ソースの PolarDB-X 1.0 インスタンスのデータベースアカウントを入力します。
	データベースのパスワード	データベースアカウントに対応するパスワードを入力します。
移行先データベース	既存の接続情報の選択	システムに追加済みのデータベースインスタンス（新規作成または保存済み）を使用する場合、ドロップダウンリストからデータベースインスタンスを選択します。データベース情報は自動的に構成されます。説明 DMS コンソールでは、この構成項目の名称は DMS データベースインスタンスの選択です。データベースインスタンスをシステムに追加していない場合、または既に追加済みのインスタンスを使用する必要がない場合は、以下のデータベース情報を手動で構成します。
	データベースタイプ	Elasticsearch を選択します。
	アクセス方法	Alibaba Cloud インスタンスを選択します。
	インスタンスのリージョン	宛先の Elasticsearch インスタンスが配置されているリージョンを選択します。
	タイプ	クラスターエディションまたはサーバーレスを必要に応じて選択します。
	インスタンス ID	宛先の Elasticsearch インスタンスのインスタンス ID を選択します。
	データベースアカウント	宛先の Elasticsearch インスタンスに接続するために使用するアカウントを入力します。これは、Elasticsearch インスタンスを作成する際に入力したユーザー名です。デフォルトのアカウントは elastic です。
	データベースのパスワード	データベースアカウントに対応するパスワードを入力します。
	暗号化	必要に応じて、HTTP または HTTPS を選択します。

構成を完了したら、ページ下部の 接続をテストして続行 をクリックします。
説明
- DTS サーバーの IP アドレス CIDR ブロックを、ソースおよび宛先データベースのセキュリティ設定に追加して、DTS サーバーからのアクセスを許可してください。これは自動的または手動で実行できます。詳細については、「DTS サーバーの IP アドレス CIDR ブロックをホワイトリストに追加」をご参照ください。
- ソースまたは宛先データベースが自己管理データベース（アクセス方法 が Alibaba Cloud インスタンス でない場合）、接続テスト を DTS サーバーの CIDR ブロック ダイアログボックス内でクリックする必要があります。

タスクオブジェクトを構成します。

オブジェクト設定 ページで、同期対象のオブジェクトを構成します。

構成	説明
同期タイプ	増分データ同期が選択されています。デフォルトでは、スキーマ同期および完全データ同期も選択する必要があります。事前チェックが完了すると、DTS はソースインスタンスから選択されたオブジェクトに対して宛先クラスターへの完全データ同期を実行します。これは、その後の増分データ同期のベースラインデータとなります。
競合するテーブルの処理モード	エラーの事前チェックと報告：宛先データベースに同名のインデックスが存在するかどうかをチェックします。同名のインデックスが存在しない場合は、チェックに合格します。同名のインデックスが存在する場合は、事前チェックでエラーが報告され、同期ジョブは開始されません。説明宛先データベースで競合するインデックスを削除または名前変更できない場合、宛先インスタンスにおける同期オブジェクトの名前を設定することで、名前の競合を回避できます。エラーを無視して続行：宛先データベースに同名のインデックスが存在するかどうかのチェックをスキップします。警告エラーを無視して続行を選択すると、データ不整合が発生し、ビジネスにリスクを及ぼす可能性があります。例えば：マッピング構造が一致する場合、初期化時にソースデータベースと同じ主キー値を持つレコードが宛先データベースに保持されます。増分同期中、これらのレコードは上書きされます。マッピング構造が一致しない場合、初期化に失敗したり、一部のカラムのみが同期されたり、同期全体が失敗したりする可能性があります。
インデックス名	テーブル名を選択すると、宛先の Elasticsearch インスタンスにテーブル名と同じ名前のインデックスが作成されます。データベース名_テーブル名を選択すると、宛先の Elasticsearch インスタンスにインデックスが作成されます。インデックス名は、データベース名、アンダースコア（_）、テーブル名を組み合わせて生成されます。説明インデックス名のマッピングは、すべてのテーブルに適用されます。
移行先インスタンスでのオブジェクト名の大文字化	宛先インスタンスに同期されるデータベース、テーブル、カラムのオブジェクト名の大文字小文字の区別ポリシーを構成できます。デフォルトでは、DTS のデフォルトポリシーが選択されています。また、ソースおよび宛先データベースのデフォルトポリシーを使用することもできます。詳細については、「宛先オブジェクト名の大文字小文字の区別ポリシー」をご参照ください。
ソースオブジェクト	ソースオブジェクトボックスで同期対象のオブジェクトを選択し、をクリックして選択中のオブジェクトボックスに移動します。説明同期対象のオブジェクトとしてテーブルを選択することを推奨します。データベース全体を選択した場合、そのデータベース内のテーブルの追加または削除に関する変更は、宛先データベースに同期されません。
選択中のオブジェクト	宛先インスタンスで単一の同期オブジェクトの名前を変更するには、選択中のオブジェクトボックス内のオブジェクトを右クリックします。オブジェクトの名前変更について詳しくは、「単一のデータベース、テーブル、またはカラムのマッピング」をご参照ください。宛先インスタンスで複数の同期オブジェクトの名前を一括で変更するには、選択中のオブジェクトボックスの右上隅にある一括編集をクリックします。詳細については、「データベース、テーブル、カラムの一括マッピング」をご参照ください。説明インデックスおよびタイプ名では、特殊文字としてアンダースコア（_）のみが許可されます。 WHERE 句を使用してデータをフィルターするには、選択中のオブジェクトボックス内の同期対象テーブルを右クリックします。ダイアログボックスが表示され、フィルター条件を設定できます。詳細については、「フィルター条件の設定」をご参照ください。オブジェクト名マッピング機能を使用すると、マップされたオブジェクトに依存する他のオブジェクトの同期が失敗する可能性があります。

詳細設定へ をクリックして、高度なパラメーターを構成します。

構成	説明
タスクのスケジュールに使用する専用クラスターの選択	デフォルトでは、DTS が共有クラスター上でタスクをスケジュールし、クラスターを選択する必要はありません。より安定したパフォーマンスを得るには、DTS 同期タスクを実行する専用クラスターを購入できます。詳細については、「DTS 専用クラスターとは？」をご参照ください。
失敗した接続の再試行時間	同期タスクが開始された後、ソースまたは宛先データベースへの接続が失敗した場合、DTS はエラーを報告し、即座に接続のリトライを開始します。デフォルトのリトライ期間は 720 分です。また、10 分から 1,440 分までのカスタムリトライ期間を指定することもできます。リトライ期間は 30 分以上に設定することを推奨します。指定された期間内に DTS がデータベースへの再接続に成功した場合、同期タスクは自動的に再開されます。それ以外の場合、タスクは失敗します。説明複数の DTS インスタンス（例：インスタンス A およびインスタンス B）が同一のソースまたは宛先を共有しており、インスタンス A のネットワークリトライ時間を 30 分、インスタンス B のネットワークリトライ時間を 60 分に設定した場合、両方のインスタンスに 30 分という短い期間が適用されます。 DTS は接続リトライ期間中のタスク実行時間に対して課金するため、ビジネスニーズに応じてリトライ期間をカスタマイズするか、ソースおよび宛先データベースインスタンスが解放された直後に DTS インスタンスを解放することを推奨します。
移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。	同期タスクが開始された後、ソースまたは宛先データベースで接続性以外の問題（DDL または DML 実行例外など）が発生した場合、DTS はエラーを報告し、即座に継続的なリトライ操作を開始します。デフォルトのリトライ期間は 10 分です。また、1 分から 1,440 分までのカスタムリトライ期間を指定することもできます。リトライ期間は 10 分以上に設定することを推奨します。設定されたリトライ期間内に該当する操作が成功した場合、同期タスクは自動的に再開されます。それ以外の場合、タスクは失敗します。重要移行元データベースと移行先データベースで他の問題が発生した場合の、再試行までの待機時間です。の値は、失敗した接続の再試行時間の値より小さくする必要があります。
完全同期レートを制限するかどうか	完全同期ステージ中、DTS はソースおよび宛先データベースの読み取りおよび書き込みリソースを消費し、データベース負荷が増加する可能性があります。ソースおよび宛先データベースの負荷を軽減するため、完全同期タスクのレート制限を設定できます。これには、1 秒あたりのソースデータベースのクエリ率 QPS、1 秒あたりの完全移行の行数 RPS、1 秒あたりの完全移行データ量 (MB) BPS の各パラメーターを構成します。説明この構成項目は、同期タイプが完全データ同期に設定されている場合にのみ利用可能です。同期インスタンスが実行中になった後でも、完全同期レートの調整を行うことができます。
増分同期率を制限するかどうか	増分同期タスクのレート制限も設定できます。宛先データベースへの負荷を軽減するため、1 秒あたりの増分同期の行数 RPS および 1 秒あたりの増分同期データ量 (MB) BPS を設定します。
環境タグ	インスタンスを識別するための環境タグを選択します。
シャード構成	宛先の Elasticsearch インスタンスにおける最大シャード構成に基づき、インデックスのプライマリシャードおよびレプリカシャードの数を設定します。
文字列インデックス	宛先の Elasticsearch インスタンスにおける文字列のインデックス化方法です。 analyzed：インデックス化前に文字列を解析します。アナライザも選択する必要があります。アナライザの詳細については、「アナライザ」をご参照ください。 not analyzed：解析せずに生の値をインデックス化します。 no：文字列をインデックス化しないことも選択できます。
タイムゾーン	DTS が日時型データ（DATETIME や TIMESTAMP など）を宛先の Elasticsearch インスタンスに同期する場合、使用するタイムゾーンを選択します。説明宛先インスタンスにおける日時型データにタイムゾーンを含めない場合は、あらかじめ宛先インスタンスで該当データのドキュメントタイプ（type）を設定してください。
DOCID	デフォルトでは、DOCID はテーブルの主キーです。テーブルに主キーがない場合、DOCID は Elasticsearch インスタンスによって自動生成された ID カラムです。
ETL 機能の設定	抽出・変換・書き出し（ETL）機能を有効にするかどうかを選択します。詳細については、「ETL とは？」をご参照ください。有効な値は以下のとおりです。 ○：ETL 機能を有効にします。コードエディタにデータ処理文を入力します。詳細については、「データ移行またはデータ同期タスクにおける ETL の構成」をご参照ください。 ×：ETL 機能を無効にします。
監視アラート	アラート通知を構成するかどうかを指定します。同期が失敗した場合や遅延が指定されたしきい値を超えた場合、アラート連絡先に通知が送信されます。 ×：アラート通知は構成されません。 ○：アラートしきい値を設定し、アラート通知を指定してアラート通知を構成します。詳細については、「タスク構成時のモニタリングおよびアラート通知の構成」をご参照ください。

上記の構成を完了したら、ページ下部の 次：データベースおよびテーブルのフィールド設定 をクリックして、宛先の Elasticsearch インスタンスにおいて同期対象テーブルの _routing 戦略および _id 値を設定します。

種別	説明
_routing の設定	_routing を構成すると、ドキュメントが宛先 Elasticsearch インスタンスの特定のシャードにルーティングされます。詳細については、「_routing」をご参照ください。カスタムカラムをルーティングに使用する場合は、はいを選択します。 _id を使用してルーティングする場合は、いいえを選択します。説明宛先 Elasticsearch インスタンスのバージョンが 7.x の場合、いいえを選択します。
_routing 列	ルーティングに使用するカラムを選択します。説明このパラメーターは、_routing の設定がはいに設定されている場合にのみ必須です。
_id の値	ドキュメント ID として使用するカラムを選択します。

タスクを保存して事前チェックを実行します。
- このインスタンスの API パラメーターを表示するには、次：タスク設定の保存と事前チェック ボタンにカーソルを合わせ、ポップアップ内の OpenAPI パラメーターのプレビュー をクリックします。
- API パラメーターの表示が完了したら、ページ下部の 次：タスク設定の保存と事前チェック をクリックします。
説明
- 同期ジョブが開始される前に、DTS は事前チェックを実行します。すべての事前チェック項目が合格した場合にのみ、ジョブを開始できます。
- 事前チェックが失敗した場合、失敗した項目の横にある 詳細を表示 をクリックします。指示に従って問題を修正し、再度事前チェックを実行してください。
- 事前チェックで警告が返された場合：
  チェック項目が失敗し、無視できない場合は、項目の横にある 詳細を表示 をクリックします。指示に従って問題を修正し、再度事前チェックを実行してください。
  無視可能なチェック項目については、アラートの詳細を確認、無視、OK、再度事前チェックを実行 の順にクリックして警告をスキップし、事前チェックを再実行できます。警告項目を無視した場合、データ不整合などの問題が発生し、ビジネスにリスクを及ぼす可能性があります。

インスタンスを購入します。

成功率 が 100 % の場合、次：インスタンスの購入 をクリックします。

購入ページで、データ同期インスタンスの課金方法およびリンク仕様を選択します。以下の表に、これらのパラメーターの詳細を示します。

カテゴリ	パラメーター	説明
新しいインスタンスクラス	課金方法	サブスクリプション：インスタンス作成時に支払いを行います。長期的なニーズに適しており、従量課金よりもコスト効率が優れています。サブスクリプション期間が長いほど、割引率が高くなります。従量課金：時間単位で課金されます。短期的なニーズに適しています。使用後すぐにインスタンスを解放してコストを節約できます。
	リソースグループ構成	インスタンスが属するリソースグループです。デフォルトはデフォルトリソースグループです。詳細については、「Resource Management とは？」をご参照ください。
	リンク仕様	DTS は、さまざまなパフォーマンスレベルの同期仕様を提供しています。同期リンク仕様は、同期レートに影響します。ビジネスシナリオに応じて仕様を選択できます。詳細については、「データ同期リンク仕様」をご参照ください。
	サブスクリプション期間	サブスクリプションモードでは、サブスクリプションインスタンスの期間および数量を選択します。月額サブスクリプションは 1～9 ヶ月、年額サブスクリプションは 1、2、3、5 年から選択できます。説明このオプションは、課金方法がサブスクリプションの場合にのみ利用可能です。

構成を完了したら、「Data Transmission Service (従量課金) 利用規約」を読み、チェックボックスを選択します。
購入して起動 をクリックします。OK ダイアログボックスで、OK をクリックします。
データ同期ページでタスクの進行状況を確認できます。

Elasticsearch	リレーショナルデータベース
インデックス	データベース
タイプ	テーブル
ドキュメント	行
フィールド	カラム
マッピング	データベーススキーマ