表格存储中的全量数据以及增量数据可以通过DataWorks数据集成同步到对象存储中备份和使用。
实现原理
DataWorks数据集成的离线同步功能将不同数据源的同步抽象为从来源数据源读取数据的Reader插件以及向目标数据源写入数据的Writer插件,方便您通过定义来源与去向数据源并结合DataWorks调度参数使用,将来源数据源中的全量或增量数据同步到目标数据源中。如下图所示。
同步表格存储数据到OSS时,离线同步任务中会涉及到配置表格存储相关的Reader插件和OSS相关的Writer插件。相关插件说明如下:
表格存储相关的Reader插件
根据数据同步方式不同,要使用的表格存储相关的Reader插件不同。具体说明请参见下表。
同步方式
所用插件
插件说明
全量导出
Tablestore(OTS) Reader
用于读取表格存储表中的数据,并可以通过指定抽取数据范围实现数据增量抽取的需求。更多信息,请参见Tablestore数据源。
增量同步
OTSStream Reader
用于增量导出表格存储表中的数据。更多信息,请参见Tablestore Stream数据源。
OSS相关的Write插件
不论使用的同步方式是全量导出或者增量同步,DataWorks均使用OSS Writer插件向OSS中写入数据。更多信息,请参见OSS数据源。
同步方式
离线同步任务可以通过配置数据过滤并结合调度参数使用来决定同步全量数据还是增量数据。
同步方式 | 说明 |
全量导出 | 将表格存储的全量数据一次性导出到OSS中备份或者使用。 使用此同步方式时,只需执行一次离线同步任务即可,无需为离线同步任务配置调度属性。 |
增量同步 | 将表格存储中新增和变化的数据定期同步到OSS中备份或者使用。 使用此同步方式时,需要配置离线同步任务的调度属性用于周期性同步增量数据。 |
使用场景
适用于以更低成本备份表格存储数据或者以文件形式导出表格存储数据到本地的场景。
使用流程
不同同步方式的使用流程存在差异,请根据所用同步方案按照相应流程执行同步操作。具体操作,请参见导出全量数据到OSS和同步增量数据到OSS。
全量导出流程
全量导出的主要步骤说明请参见下表。
步骤 | 操作 | 说明 |
1 | 新增来源数据源 | 用于指定要同步数据的表所属实例信息。来源数据源为表格存储数据源。 |
2 | 新增目标数据源。 | 用于指定要同步到的OSS Bucket信息。目标数据源为OSS数据源。 |
3 | 新建离线任务节点 | 用于完成离线数据同步操作的任务。一个同步操作需要新建一个离线任务节点、 |
4 | 配置离线同步任务并启动 | DataWorks数据集成提供了向导模式和脚本模式用于配置离线同步任务,请根据实际选择合适的配置模式。
|
5 | 数据迁移结果验证 | 完成数据导出操作后,在OSS控制台查看导入的数据。 |
增量同步流程
增量同步的主要步骤说明请参见下表。
步骤 | 操作 | 说明 |
1 | 新增来源数据源 | 用于指定要同步数据的表所属实例信息。来源数据源为表格存储数据源。 如果已有表格存储数据源满足使用需求,请跳过此步骤。 |
2 | 新增目标数据源。 | 用于指定要同步到的OSS Bucket信息。目标数据源为OSS数据源。 如果已有OSS数据源满足使用需求,请跳过此步骤。 |
3 | 新建离线任务节点 | 用于完成离线数据同步操作的任务。一个同步操作需要新建一个离线任务节点、 |
4 | 配置离线同步任务并启动 | DataWorks数据集成提供了向导模式和脚本模式用于配置离线同步任务,请根据实际选择合适的配置模式。
|
5 | 配置调度属性 | 配置同步任务的执行时间、重跑属性、调度依赖等,用于周期性执行同步任务。 |
6 | 调试代码并提交任务 | 测试代码能运行成功后,提交离线同步任务到服务端,便于后续按照调度属性定期执行任务。 |
7 | 查看任务执行结果 | 在DataWorks控制台查看任务运行状态以及在OSS管理控制台查看数据同步结果。 |