MongoDB迁移至云原生多模数据库Lindorm - 数据传输服务 DTS

本文介绍如何使用数据传输服务DTS（Data Transmission Service），将云数据库MongoDB版（副本集架构或分片集群架构）迁移至云原生多模数据库Lindorm。

前提条件

当前仅支持德国（法兰克福）地域间的迁移任务。
云数据库MongoDB版为副本集架构或分片集群架构。
重要
若源库为分片集群架构的云数据库MongoDB版，则需为所有Shard节点申请连接地址，且各Shard的账号和密码需保持一致。申请方法，请参见申请Shard连接地址。
已创建目标云原生多模数据库Lindorm实例，且数据库引擎为宽表引擎，创建方式请参见创建实例。
说明
建议目标实例的存储空间比源数据库已使用的存储空间大10%。
已根据业务需求在Lindorm中创建宽表，创建方式请参见通过Lindorm-cli连接并使用宽表引擎或通过Lindorm Shell访问宽表引擎。
说明
- 创建的对象须符合Lindorm实例的命名约束和对象的限制。
- 若Lindorm中的宽表是用HBase创建的，建议您为表添加列映射关系（即宽表的列为普通列），详情请参见HBase表添加列映射示例。

注意事项

类型	说明
源库限制	带宽要求：源库所属的服务器需具备足够出口带宽，否则将影响数据迁移速率。待迁移的集合需具备主键或唯一约束，且字段具有唯一性，否则可能会导致目标数据库中出现重复数据。如迁移对象为集合级别，且需进行编辑（如集合的名称映射），则单次迁移任务仅支持迁移至多1000个集合。当超出数量限制，任务提交后会显示请求报错，此时建议您拆分待迁移的集合，分批配置多个任务。源库为Azure Cosmos DB for MongoDB或弹性集群的Amazon DocumentDB时，仅支持全量迁移。如需进行增量迁移：源库需开启Oplog日志，并确保Oplog日志至少保留7天以上；或者开启变更流（Change Streams），并确保DTS能够通过Change Streams订阅到源库最近7天内的数据变更。否则可能会因无法获取源库的数据变更而导致任务失败，极端情况下甚至可能会导致数据不一致或丢失。由此导致的问题，不在DTS的SLA保障范围内。重要建议通过Oplog日志获取源库的数据变更。仅4.0及以上版本的MongoDB支持通过Change Streams获取数据变更。源库为Amazon DocumentDB（非弹性集群）时，需要手动开启Change Streams，并在配置任务时将迁移方式选择为ChangeStream，将架构类型选择为分片集群架构。若源MongoDB为分片集群架构的实例，则待迁移集合中的_id字段需具有唯一性，否则可能会导致数据不一致。若源MongoDB为分片集群架构的实例，则源Mongos节点的数量不能超过10个。若源实例为分片集群架构的自建MongoDB：接入方式仅支持公网IP、专线/VPN网关/智能网关和云企业网CEN。若MongoDB为8.0及以上版本且迁移方式为Oplog，您需确保迁移任务使用的Shard账号具备`directShardOperations`权限。您可通过`db.adminCommand({ grantRolesToUser: "username", roles: [{ role: "directShardOperations", db: "admin"}]})`命令添加权限。说明命令中的`username`需要替换为迁移任务使用的Shard账号。不支持通过SRV地址连接MongoDB数据库。源库的操作限制：在全量迁移阶段，请勿对库或集合执行结构变更操作（包含数组类型数据的更新），否则会导致数据迁移任务失败或源库与目标库的数据不一致。如仅执行全量数据迁移，请勿向源实例中写入新的数据，否则会导致源库与目标库的数据不一致。若源MongoDB为分片集群实例，在迁移实例运行期间，请勿在源库对待迁移的对象执行更改数据分布的相关命令（例如shardCollection、reshardCollection、unshardCollection、moveCollection、movePrimary等），否则可能会导致数据不一致。若待迁移的集合中包含TTL（Time To Live）索引，则可能会导致数据不一致或实例产生延迟。当源库为分片集群架构的MongoDB时，若源库的均衡器Balancer存在均衡数据的行为，则可能会导致实例产生延迟。
其他限制	不支持迁移admin、config和local库中的数据。目标云原生多模数据库Lindorm的集合不能有名称为_id和_value的字段，否则会导致迁移失败。如果需要增量迁移UPDATE或DELETE操作，有如下限制：若宽表是通过Lindorm SQL创建的，须在建表时添加一列非主键列_mongo_id_，类型由MongoDB中_id的类型决定，同时需要为该列创建二级索引。若宽表是通过HBase接口创建的，须在建表时添加一列非主键列且列族为f的列_mongo_id_，类型由MongoDB中_id的类型决定，同时需要为该列创建二级索引。若您需要同时使用新增列和ETL功能，请确保Lindorm中的数据不会重复。不保留事务信息，即源库中的事务迁移到目标库时会转变为单条的记录。写入到Lindorm实例的数据，须满足其数据请求的限制，否则会导致任务失败。执行数据迁移前需评估源库和目标库的性能，同时建议在业务低峰期执行数据迁移。否则全量数据迁移时DTS占用源和目标库一定读写资源，可能会导致数据库的负载上升。由于全量数据迁移会并发执行INSERT操作，导致目标数据库的集合产生碎片，因此全量迁移完成后目标数据库的集合存储空间会大于源实例的集合存储空间。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过`ROUND(COLUMN,PRECISION)`来读取这两类列的值。如果没有明确定义其精度，DTS对FLOAT的迁移精度为38位，对DOUBLE的迁移精度为308位。 DTS会尝试恢复七天之内迁移失败任务。因此在业务切换至目标实例前，请务必结束或释放该任务，或者用`revoke`命令回收DTS访问目标实例账号的写权限。避免该任务被自动恢复后，源端数据覆盖目标实例的数据。由于DTS增量迁移的延迟时间是根据迁移到目标库最后一条数据的时间戳和当前时间戳对比得出，源库长时间未执行更新操作可能导致延迟信息不准确。如果任务显示的延迟时间过大，您可以在源库执行一个更新操作来更新延迟信息。当前不支持迁移MongoDB 5.0及以上版本引入的时序集合。若实例运行失败，DTS技术支持人员将在8小时内尝试恢复该实例。在恢复失败实例的过程中，可能会对该实例进行重启、调整参数等操作。说明在调整参数时，仅会修改DTS实例的参数，不会对数据库中的参数进行修改。可能修改的参数，包括但不限于修改实例参数中的参数。

费用说明

迁移类型	链路配置费用	公网流量费用
全量数据迁移	不收费。	本示例不收费。当目标库的接入方式为公网IP时，收取公网流量费用。
增量数据迁移	收费，详情请参见计费概述。	本示例不收费。当目标库的接入方式为公网IP时，收取公网流量费用。

迁移类型说明

迁移类型	说明
全量迁移	将源云数据库MongoDB版迁移对象的存量数据全部迁移到目标云原生多模数据库Lindorm中。说明支持全量迁移DATABASE和COLLECTION中的数据。
增量迁移	在全量迁移的基础上，将源云数据库MongoDB版的增量更新迁移到目标云原生多模数据库Lindorm中。说明仅支持增量迁移在集合中插入、更新、删除文档的操作。在迁移增量更新文档的数据时，仅支持迁移使用`$set`命令更新的操作。

数据库账号的权限要求

数据库	全量迁移	增量迁移	账号创建及授权方法
源云数据库MongoDB版	待迁移库的read权限。	待迁移库、admin库和local库的read权限。	MongoDB数据库账号权限管理
目标云原生多模数据库Lindorm	云原生多模数据库Lindorm的read和write权限。		用户管理

操作步骤

本操作的目标库以Lindorm SQL创建的宽表为例进行介绍。

进入目标地域的迁移任务列表页面（二选一）。
通过DTS控制台进入
1. 登录数据传输服务DTS控制台。
2. 在左侧导航栏，单击数据迁移。
3. 在页面左上角，选择迁移实例所属地域。
通过DMS控制台进入
说明
实际操作可能会因DMS的模式和布局不同，而有所差异。更多信息。请参见极简模式控制台和自定义DMS界面布局与样式。
1. 登录DMS数据管理服务。
2. 在顶部菜单栏中，选择Data + AI > 数据传输（DTS） > 数据迁移。
3. 在迁移任务右侧，选择迁移实例所属地域。
单击创建任务，进入任务配置页面。

配置源库及目标库信息。

类别	配置	说明
无	任务名称	DTS会自动生成一个任务名称，建议配置具有业务意义的名称（无唯一性要求），便于后续识别。
源库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择MongoDB。
	接入方式	选择云实例。
	实例地区	选择源云数据库MongoDB版所属地域。
	是否跨阿里云账号	本示例为同一阿里云账号间的迁移，选择不跨账号。
	架构类型	本示例选择副本集架构。说明若架构类型选择则为分片集群架构，您还需填写Shard账号和Shard密码。
	迁移方式	请根据实际情况，选择增量数据迁移的方式。 Oplog（推荐）：若源库已开启Oplog日志，则支持此选项。说明本地自建MongoDB和云数据库MongoDB版默认已开启Oplog日志，且使用此方式迁移增量数据时增量迁移任务的延迟较小（拉取日志的速度较快），因此推荐选择Oplog。 ChangeStream：若源库已开启变更流（Change Streams），则支持此选项。说明源库为Amazon DocumentDB（非弹性集群）时，仅支持选择ChangeStream。源库架构类型选择为分片集群架构，无需填写Shard账号和Shard密码。
	实例ID	选择源云数据库MongoDB版实例ID。
	鉴权数据库名称	填入源云数据库MongoDB版实例中数据库账号所属的数据库名称，若未修改过则默认为admin。
	数据库账号	填入源云数据库MongoDB版的数据库账号。
	数据库密码	填入该数据库账号对应的密码。
	连接方式	DTS支持非加密连接、SSL安全连接和Mongo Atlas SSL三种连接方式。连接方式的选项与接入方式和架构类型有关，请以控制台为准。说明架构类型为分片集群架构，且迁移方式为Oplog的MongoDB数据库，不支持SSL安全连接。若源库为自建（接入方式不为云实例）副本集架构的MongoDB数据库，并且选择了SSL安全连接，DTS还支持上传CA证书对连接进行校验。
目标库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择Lindorm。
	接入方式	选择云实例。
	实例地区	选择目标云原生多模数据库Lindorm所属地域。
	实例ID	选择目标云原生多模数据库Lindorm的实例ID。
	数据库账号	填入目标云原生多模数据库Lindorm的数据库账号。
	数据库密码	填入该数据库账号对应的密码。

配置完成后，在页面下方单击测试连接以进行下一步。
说明
- 请确保DTS服务的IP地址段能够被自动或手动添加至源库和目标库的安全设置中，以允许DTS服务器的访问。更多信息，请参见添加DTS服务器IP地址白名单。
- 若源库或目标库为自建数据库（接入方式不是云实例），则还需要在弹出的DTS服务器访问授权对话框单击测试连接。

配置任务对象。

在对象配置页面，配置待迁移的对象。

配置	说明
迁移类型	如果只需要进行全量迁移，请选中全量迁移。如果需要进行不停机迁移，请同时选中全量迁移和增量迁移。说明若未选中增量迁移，为保障数据一致性，数据迁移期间请勿在源实例中写入新的数据。
目标已存在表的处理模式	无需配置，保持默认即可。
目标库对象名称大小写策略	您可以配置目标实例中迁移对象的库名、集合名的英文大小写策略。默认情况下选择DTS默认策略，您也可以选择与源库、目标库默认策略保持一致。更多信息，请参见目标库对象名称大小写策略。
源库对象	在源库对象框中单击待迁移的集合，然后单击将其移动至已选择对象框。
已选择对象	若目标库中的宽表是通过Lindorm SQL创建的，需要通过配置新增列的方式迁移数据，未配置的列不会迁移至目标库。编辑库名映射。右键单击已选择对象中的待迁移集合所属的库。将Schema名称修改为Lindorm中目标库的名称。可选：在勾选所需同步的DML&DDL操作区域选择所需增量迁移的操作。单击确定。编辑表名映射。右击已选择对象中的待迁移的集合。将表名称修改为Lindorm中目标表的名称。可选：设置过滤条件，设置方法请参见设置过滤条件。可选：在勾选所需同步的DML&DDL操作区域选择所需增量迁移的操作。配置MongoDB中需要迁移的字段（Field）。 DTS默认会对待迁移集合的数据进行映射，在赋值列配置表达式。您需要检查表达式是否符合您的要求，并配置列名称、类型、长度和精度等信息。在赋值列的`bson_value()`表达式中，查看该行数据在MongoDB中的字段名称。 `""`中的字段，即为MongoDB中的字段名称。例如，表达式为`bson_value("age")`，则该行数据对应MongoDB中的`age`字段。可选：删除无需迁移的字段。说明对于无需迁移的字段，您可以单击该行数据后的。配置待迁移的字段。根据`bson_value()`表达式是否符合您的要求，进行后续操作。表达式符合要求的字段填写列名称。说明此处填写的是Lindorm中目标表的列名。若目标表是用SQL创建的，列名称填写的是Lindorm中目标表的列名。若目标表是用HBase创建的且需要使用新增列功能，在修改列名称前您需要提前添加列映射关系，详情请参见HBase表添加列映射示例。列名称填写内容如下：该列是主键：填写为ROW。该列不是主键：填写格式为`列族:列名`，如person:name。选择列数据的类型。重要请务必确保目标表的数据类型与源MongoDB的数据兼容。可选：配置列数据的长度和精度。重复上述操作，将相关字段逐一进行映射。表达式不符合要求的字段说明例如，含层级关系（父子结构）的字段。在操作列，单击该行数据后的。单击+ 新增列。配置列名称、类型、长度和精度。在赋值下方的文本框中填写`bson_value()`表达式，详情请参见赋值配置示例。重要目标表的主键列必须赋值为`bson_value("_id")`。在配置`bson_value()`表达式时，需要按照层级关系配置到最小子字段，否则可能会导致数据丢失或任务失败。重复上述操作，将相关字段逐一进行映射。单击确定。

单击下一步高级配置，进行高级参数配置。

配置	说明
选择调度该任务的专属集群	DTS默认将任务调度到共享集群上，您无需选择。若您希望任务更加稳定，可以购买专属集群来运行DTS迁移任务。
源库、目标库无法连接后的重试时间	在迁移任务启动后，若源库或目标库连接失败则DTS会报错，并会立即进行持续的重试连接，默认重试720分钟，您也可以在取值范围（10~1440分钟）内自定义重试时间，建议设置30分钟以上。如果DTS在设置的时间内重新连接上源、目标库，迁移任务将自动恢复。否则，迁移任务将失败。说明针对同源或者同目标的多个DTS实例，网络重试时间以后创建任务的设置为准。由于连接重试期间，DTS将收取任务运行费用，建议您根据业务需要自定义重试时间，或者在源和目标库实例释放后尽快释放DTS实例。
源库、目标库出现其他问题后的重试时间	在迁移任务启动后，若源库或目标库出现非连接性的其他问题（如DDL或DML执行异常），则DTS会报错并会立即进行持续的重试操作，默认持续重试时间为10分钟，您也可以在取值范围（1~1440分钟）内自定义重试时间，建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功，迁移任务将自动恢复。否则，迁移任务将会失败。重要源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。
是否限制全量迁移速率	在全量迁移阶段，DTS将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升。您可以根据实际情况，选择是否对全量迁移任务进行限速设置（设置每秒查询源库的速率QPS、每秒全量迁移的行数RPS和每秒全量迁移的数据量(MB)BPS），以缓解目标库的压力。说明仅当迁移类型选择了全量迁移，才有此配置项。您也可以在迁移实例运行后，调整全量迁移的速率。
待同步的数据中，同一张表内主键_id的数据类型是否唯一	待迁移的数据中，同一个集合内主键`_id`的数据类型是否唯一。重要请根据实际情况选择，否则可能会导致数据丢失。仅当迁移类型选择了全量迁移，才有此配置项。是：唯一。在全量迁移阶段，DTS将不会扫描源库待迁移数据中主键的数据类型；在单个集合中，DTS仅会迁移一种数据类型的主键所对应的数据。否：不唯一。在全量迁移阶段，DTS将扫描源库待迁移数据中主键的数据类型，并迁移其所有数据。
是否限制增量迁移速率	您也可以根据实际情况，选择是否对增量迁移任务进行限速设置（设置每秒增量迁移的行数RPS和每秒增量迁移的数据量(MB)BPS），以缓解目标库的压力。说明仅当迁移类型选择了增量迁移，才有此配置项。您也可以在迁移实例运行后，调整增量迁移的速率。
环境标签	您可以根据实际情况，选择用于标识实例的环境标签。本示例无需选择。
配置ETL功能	根据业务需求选择是否配置ETL功能，对数据进行加工处理。是：配置ETL功能，您还需要在文本框中输入数据处理语句。否：不配置ETL功能。说明若目标表是用HBase创建的，请注意如下事项： ETL的语法包括需要配置的列和需要排除的列，在迁移过程中会将MongoDB已配置ETL的文档（Document）所有顶层字段，存储在HBase表默认的列族f中。以下示例表示：将除_id和name两个顶层元素的其他元素作为动态列写入目标表。更多信息，请参见HBase表迁移示例（ETL）。 `script:e_expand_bson_value("*", "_id,name")` 若您需要同时使用新增列和ETL功能，请确保Lindorm中的数据不会重复。新增列和ETL功能均未配置的列不会迁移至目标库。
监控告警	根据业务需求选择是否设置告警并接收告警通知。不设置：不设置告警。设置：设置告警。您还需要设置告警阈值和告警通知，当迁移失败或延迟超过阈值后，系统将进行告警通知。

保存任务并进行预检查。
- 若您需要查看调用API接口配置该实例时的参数信息，请将鼠标光标移动至下一步保存任务并预检查按钮上，然后单击气泡中的预览OpenAPI参数。
- 若您无需查看或已完成查看API参数，请单击页面下方的下一步保存任务并预检查。
说明
- 在迁移任务正式启动之前，会先进行预检查。只有预检查通过后，才能成功启动迁移任务。
- 如果预检查失败，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
- 如果预检查产生警告：
  对于不可以忽略的检查项，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
  对于可以忽略无需修复的检查项，您可以依次单击点击确认告警详情、确认屏蔽、确定、重新进行预检查，跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项，可能会导致数据不一致等问题，给业务带来风险。

购买实例。

预检查通过率显示为100%时，单击下一步购买。

在购买页面，选择数据迁移实例的链路规格，详细说明请参见下表。

类别	参数	说明
信息配置	资源组配置	选择实例所属的资源组，默认为default resource group。更多信息，请参见什么是资源管理。
信息配置	链路规格	DTS为您提供了不同性能的迁移规格，迁移链路规格的不同会影响迁移速率，您可以根据业务场景进行选择。更多信息，请参见数据迁移链路规格说明。

配置完成后，阅读并选中《数据传输（按量付费）服务条款》。
单击购买并启动，并在弹出的确认对话框，单击确定。
您可以在迁移任务列表页面，查看迁移实例的具体进度。
说明
- 若迁移实例不包含增量迁移任务，则迁移实例会自动结束。迁移实例自动结束后，运行状态为已完成。
- 若迁移实例包含增量迁移任务，则迁移实例不会自动结束，增量迁移任务会持续进行。在增量迁移任务正常运行期间，迁移实例的运行状态为运行中。

HBase表添加列映射示例

本示例以在SQL Shell上操作为例介绍。

说明

Lindorm须为2.4.0及以上版本。

为HBase创建的表添加列映射。

ALTER TABLE test MAP DYNAMIC COLUMN f:_mongo_id_ HSTRING/HINT/..., person:name HSTRING, person:age HINT;

为HBase创建的表添加二级索引。
```
CREATE INDEX idx ON test(f:_mongo_id_);
```

HBase表迁移示例（ETL）

MongoDB文档（Document）

{
  "_id" : 0,
  "person" : {
    "name" : "cindy0",
    "age" : 0,
    "student" : true
  }
}

ETL数据处理语句

script:e_expand_bson_value("*", "_id")

迁移结果

赋值配置示例

源MongoDB数据结构

{
  "_id":"62cd344c85c1ea6a2a9f****",
  "person":{
    "name":"neo",
    "age":"26",
    "sex":"male"
  }
}

目标Lindorm表结构

列名称	类型
id	STRING
person_name	STRING
person_age	INT

新增列配置

重要

请按照层级关系正确配置bson_value()表达式，否则可能会导致数据丢失或任务失败。例如，若您配置的表达式为bson_value("person")，DTS将无法把源端person的子字段（name、age、sex）的增量变更数据写入到目标端。

列名称	类型	赋值
id	STRING	bson_value("_id")
person_name	STRING	bson_value("person","name")
person_age	BIGINT	bson_value("person","age")