將PolarDB-X 1.0的資料同步至阿里雲訊息佇列Kafka - Data Transmission Service

本文介紹如何使用Data Transmission Service將PolarDB-X 1.0同步至阿里雲訊息佇列Kafka。

前提條件

已建立Kafka執行個體，並已建立用於接收同步資料的Topic，請參見概述。
說明
源庫和目標庫支援的版本，請參見同步方案概覽。
目標Kafka執行個體的儲存空間須大於PolarDB-X 1.0執行個體佔用的儲存空間。

注意事項

類型	說明
源庫限制	待同步的表需具備主鍵或唯一約束（僅具有唯一約束的表不支援庫表結構同步，建議使用主鍵約束），且欄位具有唯一性，否則可能會導致目標資料庫中出現重複資料；不支援二級索引表同步。如同步對象為表層級，且需進行編輯（如表列名映射），單次同步任務的表數量超過5000時，建議您拆分待同步的表，分批配置多個任務，或者配置整庫的同步任務，否則任務提交後可能會顯示請求報錯。 PolarDB-X 1.0下面掛載的RDS MySQL的Binlog日誌：需開啟，並且binlog_row_image為full。否則預檢查階段提示報錯，且無法成功啟動資料同步任務。如為增量同步處理任務，DTS要求來源資料庫的本地Binlog日誌儲存24小時以上，如為全量同步和增量同步處理任務，DTS要求來源資料庫的本地Binlog日誌至少保留7天以上（您可在全量同步完成後將Binlog儲存時間設定為24小時以上），否則DTS可能因無法擷取Binlog而導致任務失敗，極端情況下甚至可能會導致資料不一致或丟失。由於您所設定的Binlog日誌儲存時間低於DTS要求的時間進而導致的問題，不在DTS的SLA保障範圍內。源庫的操作限制：同步期間如需切換PolarDB-X 1.0的網路類型，切換成功後，請調整同步鏈路的網路連接資訊。在同步期間，請勿對源執行個體執行擴縮容（比如擴縮容其下掛載的RDS MySQL，或者雖未擴縮容RDS MySQL，但RDS MySQL中邏輯庫表對應的物理庫表的分布發生變化）、變更拆分鍵操作和變更DDL等操作，否則資料同步任務會失敗，或者資料不一致。同步期間如需切換PolarDB-X 1.0的網路類型，切換成功後，請調整同步鏈路的網路連接資訊。如僅執行全量資料同步，請勿向源執行個體中寫入新的資料，否則會導致源和目標資料不一致。為即時保持資料一致性，建議選擇結構同步、全量同步和增量同步處理。在庫表結構同步和全量同步階段，請勿執行庫或表結構變更的DDL操作，否則會導致資料同步任務失敗。源PolarDB-X 1.0執行個體的版本需為5.2及以上版本。
其他限制	由於PolarDB-X 1.0的同步任務為分布式同步，其下掛的一個RDS MySQL對應一個同步子任務。子任務運行情況，可在任務拓撲進行查詢。在同步期間，若目標Kafka發生了擴容或縮容，您需要重啟執行個體。 DTS基於源PolarDB-X 1.0執行個體中XA事務的連續性，以確保增量同步處理任務資料的一致性。若XA事務的連續性遭到破壞（包括但不限於修改同步對象、增量資料擷取模組容災等情境），則未提交的XA事務可能會丟失。執行資料同步前需評估源庫和目標庫的效能，同時建議業務低峰期執行資料同步。否則全量資料初始化時將佔用源庫和目標庫一定的讀寫資源，可能會導致資料庫的負載上升。全量初始化會並發執行INSERT操作，導致目標資料庫的表產生片段，因此全量初始化完成後目標執行個體的資料表空間比源執行個體的資料表空間大。請勿對源庫的同步對象使用pt-online-schema-change等類似工具執行線上DDL變更，否則會導致同步失敗。在DTS同步期間，不允許有除DTS外的資料寫入目標庫，否則會導致源庫與目標庫資料不一致。例如，有除DTS外的資料寫入目標庫時，使用DMS執行線上DDL變更，可能引起目標庫資料丟失。在全量同步和增量同步處理過程中，DTS會以Session層級暫時禁用約束檢查以及外鍵級聯操作。若任務運行時源庫存在串聯更新、刪除操作，可能會導致資料不一致。若執行個體運行失敗，DTS技術支援人員將在8小時內嘗試恢複該執行個體。在恢複失敗執行個體的過程中，可能會對該執行個體進行重啟、調整參數等操作。說明在調整參數時，僅會修改執行個體的參數，不會對資料庫中的參數進行修改。可能修改的參數，包括但不限於修改執行個體參數中的參數。

支援的同步架構

一對一單向同步
一對多單向同步
級聯單向同步
多對一單向同步

關於各類同步架構的介紹及注意事項，請參見資料同步拓撲介紹。

支援同步的SQL操作

操作類型	SQL動作陳述式
DML	INSERT、UPDATE、DELETE

資料庫帳號的許可權要求

資料庫	要求的權限	帳號建立及授權方法
源執行個體PolarDB-X 1.0	同步對象的讀許可權。	帳號管理

操作步驟

進入目標地區的同步工作清單頁面（二選一）。
通過DTS控制台進入
1. 登入Data Transmission Service控制台。
2. 在左側導覽列，單擊資料同步。
3. 在頁面左上方，選擇同步執行個體所屬地區。
通過DMS控制台進入
說明
實際操作可能會因DMS的模式和布局不同，而有所差異。更多資訊，請參見極簡模式控制台和自訂DMS介面布局與樣式。
1. 登入Data Management服務。
2. 在頂部功能表列中，選擇整合與開發 > 資料轉送（DTS） > 資料同步。
3. 在同步任務右側，選擇同步執行個體所屬地區。
單擊創建任務，進入任務配置頁面。
可選：在頁面右上方，單擊試用新版配置頁。
說明
- 若您已進入新版配置頁（頁面右上方的按鈕為返回舊版配置頁），則無需執行此操作。
- 新版配置頁和舊版配置頁部分參數有差異，建議使用新版配置頁。

配置源庫及目標庫資訊。

類別	配置	說明
無	任務名稱	DTS會自動產生一個任務名稱，建議配置具有業務意義的名稱（無唯一性要求），便於後續識別。
源庫資訊	選擇DMS資料庫執行個體	您可以按實際需求，選擇是否使用已有執行個體。如使用已有執行個體，下方資料庫資訊將自動填入，您無需重複輸入。如不使用已有執行個體，您需要輸入下方的資料庫資訊。
	資料庫類型	選擇PolarDB-X 1.0。
	接入方式	選擇雲執行個體。
	執行個體地區	選擇源PolarDB-X 1.0執行個體所屬地區。
	是否跨阿里雲帳號	本情境使用同一阿里雲帳號進行同步，需選擇為不跨帳號。
	執行個體ID	選擇源PolarDB-X 1.0執行個體ID。
	資料庫帳號	填入源PolarDB-X 1.0執行個體的資料庫帳號，許可權要求，請參見資料庫帳號的許可權要求。
	資料庫密碼	填入該資料庫帳號對應的密碼。
目標庫資訊	選擇DMS資料庫執行個體	您可以按實際需求，選擇是否使用已有執行個體。如使用已有執行個體，下方資料庫資訊將自動填入，您無需重複輸入。如不使用已有執行個體，您需要輸入下方的資料庫資訊。
	資料庫類型	選擇Kafka。
	接入方式	選擇專線/VPN網關/智能網關。說明暫不支援雲執行個體的接入方式。
	執行個體地區	選擇目標Kafka執行個體所屬地區。
	已和目標端資料庫聯通的VPC	選擇目標Kafka執行個體所屬的專用網路ID。您可以在Kafka執行個體的基本資料頁面中查看到專用網路ID。
	網域名稱或IP地址	填入Kafka執行個體預設存取點中的任意一個IP地址。說明您可以在Kafka執行個體的基本資料頁面中，擷取預設存取點對應的IP地址。
	連接埠	Kafka執行個體的服務連接埠，預設為9092。
	資料庫帳號	填入目標Kafka執行個體的資料庫帳號和對應的密碼。說明僅開啟ACL的阿里雲訊息佇列Kafka版執行個體才需要填寫資料庫帳號與資料庫密碼，關於開啟ACL的資訊，請參見SASL使用者授權。
	資料庫密碼
	Kafka版本	根據Kafka執行個體版本，選擇對應的版本資訊。
	串連方式	根據業務及安全需求，選擇非加密串連或SCRAM-SHA-256。
	Topic	在下拉框中選擇具體的Topic。
	儲存DDL的Topic	在下拉框中選擇具體的Topic，用於儲存DDL資訊。如果未指定，DDL資訊預設儲存在Topic選擇的Topic中。
	是否使用Kafka Schema Registry	Kafka Schema Registry是中繼資料提供服務層，提供了一個RESTful介面，用於儲存和檢索Avro Schema。否：不使用Kafka Schema Registry。是：使用Kafka Schema Registry。您需要輸入Avro Schema在Kafka Schema Registry註冊的URL或IP。

配置完成後，單擊頁面下方的測試連接以進行下一步。
如果源或目標資料庫是阿里雲資料庫執行個體（例如RDS MySQL、ApsaraDB for MongoDB等），DTS會自動將對應地區DTS服務的IP地址添加到阿里雲資料庫執行個體的白名單中；如果源或目標資料庫是ECS上的自建資料庫，DTS會自動將對應地區DTS服務的IP地址添加到ECS的安全規則中，您還需確保自建資料庫沒有限制ECS的訪問（若資料庫是叢集部署在多個ECS執行個體，您需要手動將DTS服務對應地區的IP地址添到其餘每個ECS的安全規則中）；如果源或目標資料庫是IDC自建資料庫或其他雲資料庫，則需要您手動添加對應地區DTS服務的IP地址，以允許來自DTS伺服器的訪問。DTS服務的IP地址，請參見DTS伺服器的IP位址區段。
警告
DTS自動添加或您手動添加DTS服務的公網IP位址區段可能會存在安全風險，一旦使用本產品代表您已理解和確認其中可能存在的安全風險，並且需要您做好基本的安全防護，包括但不限於加強帳號密碼強度防範、限制各網段開放的連接埠號碼、內部各API使用鑒權方式通訊、定期檢查並限制不需要的網段，或者使用通過內網（專線/VPN網關/智能網關）的方式接入。

配置任務對象及進階配置。

配置	說明
同步類型	固定選中增量同步處理。預設情況下，您還需要同時選中庫表結構同步和全量同步。預檢查完成後，DTS會將源執行個體中待同步對象的全量資料在目的地組群中初始化，作為後續增量同步處理資料的基準資料。說明若選中了全量同步，則執行了CREATE TABLE語句的待同步表（表結構和表資料）支援同步至目標庫。
目標已存在表的處理模式	預檢查並報錯攔截：檢查目標資料庫中是否有同名的表。如果目標資料庫中沒有同名的表，則通過該檢查專案；如果目標資料庫中有同名的表，則在預檢查階段提示錯誤，資料同步任務不會被啟動。說明如果目標庫中同名的表不方便刪除或重新命名，您可以更改該表在目標庫中的名稱，請參見庫表列名映射。忽略報錯並繼續執行：跳過目標資料庫中是否有同名表的檢查項。警告選擇為忽略報錯並繼續執行，可能導致資料不一致，給業務帶來風險，例如：表結構一致的情況下，如在目標庫遇到與源庫主鍵或唯一鍵的值相同的記錄：全量期間，DTS會保留目的地組群中的該條記錄，即源庫中的該條記錄不會同步至目標資料庫中。增量期間，DTS不會保留目的地組群中的該條記錄，即源庫中的該條記錄會覆蓋至目標資料庫中。表結構不一致的情況下，可能會導致無法初始化資料、只能同步部分列的資料或同步失敗，請謹慎操作。
投遞到Kafka的資料格式	根據需求選擇同步到Kafka執行個體中的資料存放區格式。如果您選擇DTS Avro，根據DTS Avro的schema定義進行資料解析，schema定義詳情請參見DTS Avro的schema定義。如果您選擇Canal Json，Canal Json的參數說明和樣本請參見Canal Json說明。說明 PolarDB-X 1.0暫不支援選擇Canal Json，預設選擇DTS Avro。
Kafka壓縮格式	根據需求選擇Kafka壓縮訊息的壓縮格式。 LZ4（預設）：壓縮率較低，壓縮速率較高。 GZIP：壓縮率較高，壓縮速率較低。說明對CPU的消耗較高。 Snappy：壓縮率中等，壓縮速率中等。
投遞到Kafka Partition策略	暫不支援此功能。
目標庫對象名稱大小寫策略	您可以配置目標執行個體中同步對象的庫名、表名和列名的英文大小寫策略。預設情況下選擇DTS預設策略，您也可以選擇與源庫、目標庫預設策略保持一致。更多資訊，請參見目標庫對象名稱大小寫策略。
源庫對象	在源庫對象框中單擊待同步對象，然後單擊將其移動至已選擇對象框。說明同步對象支援選擇的粒度為表。如選擇整個庫作為同步對象，且源庫中新增或刪除表，則這類變更不會同步至目標庫。
已選擇對象	如需更改單個同步對象在目標執行個體中的名稱，請右擊已選擇對象中的同步對象，設定方式，請參見庫表列名單個映射。如需批量更改同步對象在目標執行個體中的名稱，請單擊已選擇對象方框右上方的大量編輯，設定方式，請參見庫表列名批量映射。說明如需設定WHERE條件過濾資料，請在已選擇對象中右擊待同步的表，在彈出的對話方塊中設定過濾條件。設定方法請參見通過SQL條件過濾任務資料。

單擊下一步進階配置，進行進階配置。

配置	說明
選擇調度該任務的專屬叢集	本案例不需要選擇，關於專屬叢集的詳情介紹，請參見什麼是DTS專屬叢集？。
監控警示	是否設定警示，當同步失敗或延遲超過閾值後，將通知警示連絡人。不設定：不設定警示。設定：設定警示，您還需要設定警示閾值和警示通知。更多資訊，請參見在配置任務過程中配置監控警示。
源庫、目標庫無法串連後的重試時間	在同步任務啟動後，若源庫或目標庫串連失敗則DTS會報錯，並會立即進行持續的重試串連，預設持續重試時間為720分鐘，您也可以在取值範圍（10~1440分鐘）內自訂重試時間，建議設定30分鐘以上。如果DTS在設定的重試時間內重新串連上源庫、目標庫，同步任務將自動回復。否則，同步任務將會失敗。說明針對同源或者同目標的多個DTS執行個體，如DTS執行個體A和DTS執行個體B，設定網路重試時間時A設定30分鐘，B設定60分鐘，則重試時間以低的30分鐘為準。由於串連重試期間，DTS將收取任務運行費用，建議您根據業務需要自訂重試時間，或者在源和目標庫執行個體釋放後儘快釋放DTS執行個體。
源庫、目標庫出現其他問題後的重試時間	在同步任務啟動後，若源庫或目標庫出現非串連性的其他問題（如DDL或DML執行異常），則DTS會報錯並會立即進行持續的重試操作，預設持續重試時間為10分鐘，您也可以在取值範圍（1~1440分鐘）內自訂重試時間，建議設定10分鐘以上。如果DTS在設定的重試時間內相關操作執行成功，同步任務將自動回復。否則，同步任務將會失敗。重要源庫、目標庫出現其他問題後的重試時間的值需要小於源庫、目標庫無法串連後的重試時間的值。
配置ETL功能	選擇是否配置ETL功能。關於ETL的更多資訊，請參見什麼是ETL流式ETL。是：配置ETL功能，並在文字框中填寫資料處理語句，詳情請參見在DTS遷移或同步任務中配置ETL。否：不配置ETL功能。

儲存任務並進行預檢查。
- 若您需要查看調用API介面配置該執行個體時的參數資訊，請將滑鼠游標移動至下一步儲存任務並預檢查按鈕上，然後單擊氣泡中的預覽OpenAPI參數。
- 若您無需查看或已完成查看API參數，請單擊頁面下方的下一步儲存任務並預檢查。
說明
- 在同步作業正式啟動之前，會先進行預檢查。只有預檢查通過後，才能成功啟動同步作業。
- 如果預檢查失敗，請單擊失敗檢查項後的查看詳情，並根據提示修複後重新進行預檢查。
- 如果預檢查產生警告：
  對於不可以忽略的檢查項，請單擊失敗檢查項後的查看詳情，並根據提示修複後重新進行預檢查。
  對於可以忽略無需修複的檢查項，您可以依次單擊點擊確認警示詳情、確認屏蔽、確定、重新進行預檢查，跳過警示檢查項重新進行預檢查。如果選擇屏蔽警示檢查項，可能會導致資料不一致等問題，給業務帶來風險。
預檢查通過率顯示為100%時，單擊下一步購買。

購買執行個體。

在購買頁面，選擇資料同步執行個體的計費方式、鏈路規格，詳細說明請參見下表。

類別	參數	說明
資訊配置	計費方式	預付費（訂用帳戶）：在建立執行個體時支付費用。適合長期需求，價格比隨用隨付更實惠，且購買時間長度越長，折扣越多。後付費（隨用隨付）：按小時計費。適合短期需求，用完可立即釋放執行個體，節省費用。
	資源群組配置	執行個體所屬的資源群組，預設為default resource group。更多資訊，請參見什麼是資源管理。
	鏈路規格	DTS為您提供了不同效能的同步規格，同步鏈路規格的不同會影響同步速率，您可以根據業務情境進行選擇。更多資訊，請參見資料同步鏈路規格說明。
	訂購時間長度	在預付費模式下，選擇訂用帳戶執行個體的時間長度和數量，包月可選擇1~9個月，包年可選擇1年、2年、3年和5年。說明該選項僅在付費類型為預付費時出現。

配置完成後，閱讀並勾選《資料轉送（隨用隨付）服務條款》。
單擊購買並啟動，並在彈出的確認對話方塊，單擊確定。
您可在資料同步介面查看具體任務進度。

前提條件

注意事項

支援的同步架構

支援同步的SQL操作

資料庫帳號的許可權要求

操作步驟

通過DTS控制台進入

通過DMS控制台進入