将PolarDB-X 1.0的数据同步至阿里云消息队列Kafka - 数据传输服务 DTS

本文介绍如何使用数据传输服务DTS（Data Transmission Service）将PolarDB-X 1.0同步至阿里云消息队列Kafka。

前提条件

已创建Kafka实例，并已创建用于接收同步数据的Topic，请参见概述。
说明
源库和目标库支持的版本，请参见同步方案概览。
目标Kafka实例的存储空间须大于PolarDB-X 1.0实例占用的存储空间。

注意事项

类型	说明
源库限制	待同步的表需具备主键或唯一约束（仅具有唯一约束的表不支持库表结构同步，建议使用主键约束），且字段具有唯一性，否则可能会导致目标数据库中出现重复数据；不支持二级索引表同步。如同步对象为表级别，且需进行编辑（如表列名映射），单次同步任务的表数量超过5000时，建议您拆分待同步的表，分批配置多个任务，或者配置整库的同步任务，否则任务提交后可能会显示请求报错。 PolarDB-X 1.0下面挂载的RDS MySQL的Binlog日志：需开启，并且binlog_row_image为full。否则预检查阶段提示报错，且无法成功启动数据同步任务。如为增量同步任务，DTS要求源数据库的本地Binlog日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的本地Binlog日志至少保留7天以上（您可在全量同步完成后将Binlog保存时间设置为24小时以上），否则DTS可能因无法获取Binlog而导致任务失败，极端情况下甚至可能会导致数据不一致或丢失。由于您所设置的Binlog日志保存时间低于DTS要求的时间进而导致的问题，不在DTS的SLA保障范围内。源库的操作限制：同步期间如需切换PolarDB-X 1.0的网络类型，切换成功后，请调整同步链路的网络连接信息。在同步期间，请勿对源实例执行扩缩容（比如扩缩容其下挂载的RDS MySQL，或者虽未扩缩容RDS MySQL，但RDS MySQL中逻辑库表对应的物理库表的分布发生变化）、变更拆分键操作和变更DDL等操作，否则数据同步任务会失败，或者数据不一致。同步期间如需切换PolarDB-X 1.0的网络类型，切换成功后，请调整同步链路的网络连接信息。如仅执行全量数据同步，请勿向源实例中写入新的数据，否则会导致源和目标数据不一致。为实时保持数据一致性，建议选择结构同步、全量同步和增量同步。在库表结构同步和全量同步阶段，请勿执行库或表结构变更的DDL操作，否则会导致数据同步任务失败。说明在全量同步阶段，DTS将对源库进行查询，这将产生元数据锁，从而可能阻碍源数据库的DDL操作执行。源PolarDB-X 1.0实例的版本需为5.2及以上版本。
其他限制	不支持同步INDEX、PARTITION、VIEW、PROCEDURE、FUNCTION、TRIGGER、FK。由于PolarDB-X 1.0的同步任务为分布式同步，其下挂的一个RDS MySQL对应一个同步子任务。子任务运行情况，可在任务拓扑进行查询。在同步期间，若目标Kafka发生了扩容或缩容，您需要重启实例。 DTS基于源PolarDB-X 1.0实例中XA事务的连续性，以确保增量同步任务数据的一致性。若XA事务的连续性遭到破坏（包括但不限于修改同步对象、增量数据采集模块容灾等场景），则未提交的XA事务可能会丢失。执行数据同步前需评估源库和目标库的性能，同时建议业务低峰期执行数据同步。否则全量数据初始化时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升。全量初始化会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量初始化完成后目标实例的表空间比源实例的表空间大。请勿对源库的同步对象使用pt-online-schema-change等类似工具执行在线DDL变更，否则会导致同步失败。在DTS同步期间，不允许有除DTS外的数据写入目标库，否则会导致源库与目标库数据不一致。例如，有除DTS外的数据写入目标库时，使用DMS执行在线DDL变更，可能引起目标库数据丢失。在全量同步和增量同步过程中，DTS会以Session级别暂时禁用约束检查以及外键级联操作。若任务运行时源库存在级联更新、删除操作，可能会导致数据不一致。若实例运行失败，DTS技术支持人员将在8小时内尝试恢复该实例。在恢复失败实例的过程中，可能会对该实例进行重启、调整参数等操作。说明在调整参数时，仅会修改DTS实例的参数，不会对数据库中的参数进行修改。可能修改的参数，包括但不限于修改实例参数中的参数。

支持的同步架构

一对一单向同步
一对多单向同步
级联单向同步
多对一单向同步

关于各类同步架构的介绍及注意事项，请参见数据同步拓扑介绍。

支持同步的SQL操作

操作类型	SQL操作语句
DML	INSERT、UPDATE、DELETE

数据库账号的权限要求

数据库	所需权限	账号创建及授权方法
源实例PolarDB-X 1.0	同步对象的读权限。	账号管理

操作步骤

进入目标地域的同步任务列表页面（二选一）。
通过DTS控制台进入
1. 登录数据传输服务DTS控制台。
2. 在左侧导航栏，单击数据同步。
3. 在页面左上角，选择同步实例所属地域。
通过DMS控制台进入
说明
实际操作可能会因DMS的模式和布局不同，而有所差异。更多信息，请参见极简模式控制台和自定义DMS界面布局与样式。
1. 登录DMS数据管理服务。
2. 在顶部菜单栏中，选择Data + AI > 数据传输（DTS） > 数据同步。
3. 在同步任务右侧，选择同步实例所属地域。
单击创建任务，进入任务配置页面。

配置源库及目标库信息。

类别	配置	说明
无	任务名称	DTS会自动生成一个任务名称，建议配置具有业务意义的名称（无唯一性要求），便于后续识别。
源库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择PolarDB-X 1.0。
	接入方式	选择云实例。
	实例地区	选择源PolarDB-X 1.0实例所属地域。
	是否跨阿里云账号	本场景使用同一阿里云账号进行同步，需选择为不跨账号。
	实例ID	选择源PolarDB-X 1.0实例ID。
	数据库账号	填入源PolarDB-X 1.0实例的数据库账号，权限要求，请参见数据库账号的权限要求。
	数据库密码	填入该数据库账号对应的密码。
目标库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择Kafka。
	接入方式	选择专线/VPN网关/智能网关。说明此处将阿里云消息队列Kafka版实例作为自建Kafka数据库来配置同步实例。
	实例地区	选择目标Kafka实例所属地域。
	已和目标端数据库联通的VPC	选择目标Kafka实例所属的专有网络ID。您可以在Kafka实例的基本信息页面中查看到专有网络ID。
	域名或IP地址	填入Kafka实例默认接入点中的任意一个IP地址。说明您可以在Kafka实例的基本信息页面中，获取默认接入点对应的IP地址。
	端口	Kafka实例的服务端口，默认为9092。
	数据库账号	填入目标Kafka实例的数据库账号和对应的密码。说明仅开启ACL的阿里云消息队列Kafka版实例才需要填写数据库账号与数据库密码，关于开启ACL的信息，请参见SASL用户授权。
	数据库密码
	Kafka版本	根据Kafka实例版本，选择对应的版本信息。
	连接方式	根据业务及安全需求，选择非加密连接或SCRAM-SHA-256。
	Topic	在下拉框中选择接收数据的Topic。
	是否使用Kafka Schema Registry	Kafka Schema Registry是元数据提供服务层，提供了一个RESTful接口，用于存储和检索Avro Schema。否：不使用Kafka Schema Registry。是：使用Kafka Schema Registry。您需要输入Avro Schema在Kafka Schema Registry注册的URL或IP。

配置完成后，在页面下方单击测试连接以进行下一步。
说明
- 请确保DTS服务的IP地址段能够被自动或手动添加至源库和目标库的安全设置中，以允许DTS服务器的访问。更多信息，请参见添加DTS服务器IP地址白名单。
- 若源库或目标库为自建数据库（接入方式不是云实例），则还需要在弹出的DTS服务器访问授权对话框单击测试连接。

配置任务对象。

在对象配置页面，配置待同步的对象。

配置	说明
同步类型	固定选中增量同步。默认情况下，您还需要同时选中库表结构同步和全量同步。预检查完成后，DTS会将源实例中待同步对象的全量数据在目标集群中初始化，作为后续增量同步数据的基线数据。说明若选中了全量同步，则执行了CREATE TABLE语句的待同步表（表结构和表数据）支持同步至目标库。
目标已存在表的处理模式	预检查并报错拦截：检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表，则通过该检查项目；如果目标数据库中有同名的表，则在预检查阶段提示错误，数据同步任务不会被启动。说明如果目标库中同名的表不方便删除或重命名，您可以更改该表在目标库中的名称，请参见库表列名映射。忽略报错并继续执行：跳过目标数据库中是否有同名表的检查项。警告选择为忽略报错并继续执行，可能导致数据不一致，给业务带来风险，例如：表结构一致的情况下，如在目标库遇到与源库主键或唯一键的值相同的记录：全量期间，DTS会保留目标集群中的该条记录，即源库中的该条记录不会同步至目标数据库中。增量期间，DTS不会保留目标集群中的该条记录，即源库中的该条记录会覆盖至目标数据库中。表结构不一致的情况下，可能会导致无法初始化数据、只能同步部分列的数据或同步失败，请谨慎操作。
投递到Kafka的数据格式	根据需求选择同步到Kafka实例中的数据存储格式。如果您选择DTS Avro，需要根据DTS Avro的Schema定义进行数据解析，详情请参见DTS Avro的Schema定义和DTS Avro的反序列化示例。如果您选择Canal Json，Canal Json的参数说明和示例请参见Canal Json说明。说明 PolarDB-X 1.0暂不支持选择Canal Json，需选择DTS Avro。
Kafka压缩格式	根据需求选择Kafka压缩消息的压缩格式。 LZ4（默认）：压缩率较低，压缩速率较高。 GZIP：压缩率较高，压缩速率较低。说明对CPU的消耗较高。 Snappy：压缩率中等，压缩速率中等。
投递到Kafka Partition策略	暂不支持此功能。
消息确认机制	根据业务需求选择消息确认机制。
存储DDL的Topic	在下拉框中选择用于存储DDL信息的Topic。说明若未选择，DDL信息默认存储在接收数据的Topic中。
目标库对象名称大小写策略	您可以配置目标实例中同步对象的库名、表名和列名的英文大小写策略。默认情况下选择DTS默认策略，您也可以选择与源库、目标库默认策略保持一致。更多信息，请参见目标库对象名称大小写策略。
源库对象	在源库对象框中单击待同步对象，然后单击将其移动至已选择对象框。说明同步对象的选择粒度建议为表级别。若选择的同步对象包含整库，则在该库中新增或删除表的变更将不会被同步至目标库。
已选择对象	本示例无需额外配置。您可以使用映射功能，设置源表在目标Kafka实例中的Topic名称、Topic的Partition数量、Partition Key等信息。更多信息，请参见映射信息。说明如果使用了对象名映射功能，可能会导致依赖这个对象的其他对象同步失败。如需选择增量同步的SQL操作，请在已选择对象中右击待同步对象，并在弹出的对话框中选择所需同步的SQL操作。

单击下一步高级配置，进行高级参数配置。

配置	说明
选择调度该任务的专属集群	DTS默认将任务调度到共享集群上，您无需选择。若您希望任务更加稳定，可以购买专属集群来运行DTS同步任务。更多信息，请参见什么是DTS专属集群。
源库、目标库无法连接后的重试时间	在同步任务启动后，若源库或目标库连接失败则DTS会报错，并会立即进行持续的重试连接，默认持续重试时间为720分钟，您也可以在取值范围（10~1440分钟）内自定义重试时间，建议设置30分钟以上。如果DTS在设置的重试时间内重新连接上源库、目标库，同步任务将自动恢复。否则，同步任务将会失败。说明针对同源或者同目标的多个DTS实例，如DTS实例A和DTS实例B，设置网络重试时间时A设置30分钟，B设置60分钟，则重试时间以低的30分钟为准。由于连接重试期间，DTS将收取任务运行费用，建议您根据业务需要自定义重试时间，或者在源和目标库实例释放后尽快释放DTS实例。
源库、目标库出现其他问题后的重试时间	在同步任务启动后，若源库或目标库出现非连接性的其他问题（如DDL或DML执行异常），则DTS会报错并会立即进行持续的重试操作，默认持续重试时间为10分钟，您也可以在取值范围（1~1440分钟）内自定义重试时间，建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功，同步任务将自动恢复。否则，同步任务将会失败。重要源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。
是否限制全量同步速率	在全量同步阶段，DTS将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升。您可以根据实际情况，选择是否对全量同步任务进行限速设置（设置每秒查询源库的速率QPS、每秒全量迁移的行数RPS和每秒全量迁移的数据量(MB)BPS），以缓解目标库的压力。说明仅当同步类型选择了全量同步，才有此配置项。您也可以在同步实例运行后，调整全量同步的速率。
是否限制增量同步速率	您也可以根据实际情况，选择是否对增量同步任务进行限速设置（设置每秒增量同步的行数RPS和每秒增量同步的数据量(MB)BPS），以缓解目标库的压力。
环境标签	您可以根据实际情况，选择用于标识实例的环境标签。本示例无需选择。
配置ETL功能	选择是否配置ETL功能。关于ETL的更多信息，请参见什么是ETL。是：配置ETL功能，并在文本框中填写数据处理语句，详情请参见在DTS迁移或同步任务中配置ETL。否：不配置ETL功能。
监控告警	是否设置告警，当同步失败或延迟超过阈值后，将通知告警联系人。不设置：不设置告警。设置：设置告警，您还需要设置告警阈值和告警通知。更多信息，请参见在配置任务过程中配置监控告警。

保存任务并进行预检查。
- 若您需要查看调用API接口配置该实例时的参数信息，请将鼠标光标移动至下一步保存任务并预检查按钮上，然后单击气泡中的预览OpenAPI参数。
- 若您无需查看或已完成查看API参数，请单击页面下方的下一步保存任务并预检查。
说明
- 在同步作业正式启动之前，会先进行预检查。只有预检查通过后，才能成功启动同步作业。
- 如果预检查失败，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
- 如果预检查产生警告：
  对于不可以忽略的检查项，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
  对于可以忽略无需修复的检查项，您可以依次单击点击确认告警详情、确认屏蔽、确定、重新进行预检查，跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项，可能会导致数据不一致等问题，给业务带来风险。

购买实例。

预检查通过率显示为100%时，单击下一步购买。

在购买页面，选择数据同步实例的计费方式、链路规格，详细说明请参见下表。

类别	参数	说明
信息配置	计费方式	预付费（包年包月）：在新建实例时支付费用。适合长期需求，价格比按量付费更实惠，且购买时长越长，折扣越多。后付费（按量付费）：按小时扣费。适合短期需求，用完可立即释放实例，节省费用。
	资源组配置	实例所属的资源组，默认为default resource group。更多信息，请参见什么是资源管理。
	链路规格	DTS为您提供了不同性能的同步规格，同步链路规格的不同会影响同步速率，您可以根据业务场景进行选择。更多信息，请参见数据同步链路规格说明。
	订购时长	在预付费模式下，选择包年包月实例的时长和数量，包月可选择1~9个月，包年可选择1年、2年、3年和5年。说明该选项仅在付费类型为预付费时出现。

配置完成后，阅读并勾选《数据传输（按量付费）服务条款》。
单击购买并启动，并在弹出的确认对话框，单击确定。
您可在数据同步界面查看具体任务进度。

映射信息

在已选择对象区域框中，将鼠标指针放置在目标Topic名（表级别）上。
单击目标Topic名后出现的编辑。

在弹出的编辑表对话框中，配置映射信息。

说明

库级别是编辑Schema对话框，且支持配置的参数少；表级别是编辑表对话框。
若同步对象的粒度不是整库，则不支持修改编辑Schema对话框的目标Topic名称和设置新建Topic的Partition数量。

配置	说明
目标Topic名称	源表同步到的目标Topic名称，默认为源库及目标库配置阶段在目标库信息选择的Topic。重要目标库为阿里云消息队列Kafka版实例时，填写的Topic名称必须在目标Kafka实例中真实存在，否则将会导致数据同步失败。目标库为自建Kafka数据库，且同步实例包含库表结构任务时，DTS会尝试在目标库中创建您填写的Topic。若您修改了目标Topic名称，数据将会被写入到您填写的Topic中。
过滤条件	详情请参见设置过滤条件。
设置新建Topic的Partition数量	数据写入到目标Topic时的分区数。
Partition Key	当投递到Kafka Partition策略选择为按主键的hash值投递到不同Partition时，您可以配置本参数，指定单个或多个列作为Partition Key来计算Hash值，DTS将根据计算得到的Hash值将不同的行投递到目标Topic的各Partition中。说明仅支持在编辑表对话框勾选Partition Key。

单击确定。

常见问题

是否支持修改Kafka压缩格式？
支持，您可以使用修改同步对象功能进行修改。
是否支持修改消息确认机制？
支持，您可以使用修改同步对象功能进行修改。