同步数据表中的数据到另一个数据表 - 表格存储

使用通道服务、DataWorks或者DataX将表格存储数据表中的数据同步到另一个数据表。

前提条件

已创建目标数据表，目标数据表的列必须与源数据表中待迁移的列一一对应。具体操作，请参见创建数据表。

说明

如果要实现跨账号、跨地域数据迁移，请使用DataX工具通过互联网或者通过云企业网连通VPC进行操作。关于使用云企业网的具体操作，请参见云企业网快速入门。

使用通道服务迁移同步

创建源数据表的通道后，使用SDK进行迁移同步。迁移过程中可以自定义业务处理逻辑对数据进行处理。

操作步骤

使用表格存储控制台创建源数据表的通道并记录通道ID，具体操作，请参见创建数据通道。

使用SDK迁移数据。

示例代码如下：

public class TunnelTest {

    public static void main(String[] args){
       String accessKeyId = System.getenv("TABLESTORE_ACCESS_KEY_ID");
       String accessKeySecret = System.getenv("TABLESTORE_ACCESS_KEY_SECRET");
       TunnelClient tunnelClient = new TunnelClient("endpoint",
               accessKeyId,accessKeySecret,"instanceName");

        TunnelWorkerConfig config = new TunnelWorkerConfig(new SimpleProcessor());

        //tunnelId可以在表格存储控制台通道管理页面查看或者调用describeTunnelRequest查询。
        TunnelWorker worker = new TunnelWorker("tunnelId", tunnelClient, config);
        try {
            worker.connectAndWorking();
        } catch (Exception e) {
            e.printStackTrace();
            worker.shutdown();
            tunnelClient.shutdown();
        }
    }

    public static class SimpleProcessor implements IChannelProcessor{
    
       //目标tablestore连接对象。
       TunnelClient tunnelClient = new TunnelClient("endpoint",
               "accessKeyId","accessKeySecret","instanceName");
               
       @Override
        public void process(ProcessRecordsInput processRecordsInput) {
        
            //ProcessRecordsInput中返回了增量或全量数据。
            List<StreamRecord> list = processRecordsInput.getRecords();
            for(StreamRecord streamRecord : list){
                switch (streamRecord.getRecordType()){
                    case PUT:
                        //自定义业务处理逻辑。
                        //putRow
                        break;
                    case UPDATE:
                        //updateRow
                        break;
                    case DELETE:
                        //deleteRow
                        break;
                }

                System.out.println(streamRecord.toString());
            }
        }

        @Override
        public void shutdown() {
            
        }
    }
}

使用DataWorks或者DataX迁移同步

通过DataWorks或者DataX实现表格存储数据的迁移同步，此处以DataWorks为例介绍迁移操作。

步骤一：新增表格存储数据源

分别以源数据表和目标数据表所在实例新增表格存储数据源。

进入数据集成页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与治理 > 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。
在左侧导航栏，单击数据源。
在数据源列表页面，单击新增数据源。
在新增数据源对话框，找到Tablestore区块，单击Tablestore。

在新增OTS数据源对话框，根据下表配置数据源参数。

参数	说明
数据源名称	数据源名称必须以字母、数字、下划线（_）组合，且不能以数字和下划线（_）开头。
数据源描述	对数据源进行简单描述，不得超过80个字符。
地域	选择Tablestore实例所属地域。
Table Store实例名称	Tablestore实例的名称。更多信息，请参见实例。
Endpoint	Tablestore实例的服务地址，推荐使用VPC地址。重要本文以Tablestore实例和DataWorks工作空间在同一阿里云主账号的同一地域下为例进行说明。更多场景信息，请参见各场景网络连通配置示例。
AccessKey ID	阿里云账号或者RAM用户的AccessKey ID和AccessKey Secret。获取方式请参见创建AccessKey。
AccessKey Secret

测试资源组连通性。
创建数据源时，您需要测试资源组的连通性，以保证同步任务使用的资源组能够与数据源连通，否则将无法正常执行数据同步任务。
1. （可选）购买并绑定资源组至当前DataWorks工作空间。具体操作，请参见新增和使用Serverless资源组。
  不推荐使用旧版资源组（独享资源组和公共资源组），相较于旧版资源组，Serverless资源组支持的能力更丰富、售卖方式更统一、能有效利用资源碎片避免浪费，因此推荐您使用Serverless资源组。
  说明
  Serverless资源组默认不具备公网访问能力。需要为绑定的VPC配置公网NAT网关和EIP后，才支持公网访问数据源。
2. 待资源组启动成功后，在连接配置区域，单击相应资源组连通状态列的测试连通性。
3. 测试连通性通过后，连通状态显示可连通，单击完成。
  在数据源列表中，可以查看新建的数据源。
  说明
  如果显示无法连通，表示资源组与数据源无法连通，后续相应数据源任务将无法正常执行。您可以参考以下思路排查处理。
  - 根据右侧弹出的连通性诊断工具窗口，自助解决连通性问题。
  - 如果连通性诊断工具未给出具体解决办法，请检查您设置的账号、密码、连接地址等参数，以及确保将资源组的IP地址加入到数据源的白名单中。更多信息，请参见网络连通方案。

步骤二：新建同步任务节点

进入数据开发页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与治理 > 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。
在DataStudio控制台的数据开发页面，单击业务流程节点下的目标业务流程。
如果需要新建业务流程，请参见创建业务流程。
在数据集成节点上右键选择新建节点 > 离线同步。
在新建节点对话框，选择路径并填写节点名称。
单击确认。
在数据集成节点下会显示新建的离线同步节点。

步骤三：配置离线同步任务并启动

在数据集成节点下，双击打开新建的离线同步任务节点。
配置同步网络链接。
选择离线同步任务的数据来源、数据去向以及用于执行同步任务的资源组，并测试连通性。
重要
数据同步任务的执行必须经过资源组来实现，请选择资源组并保证资源组与读写两端的数据源能联通访问。
1. 在网络与资源配置步骤，选择数据来源为Tablestore，并选择数据源名称为新增的源数据源。
2. 选择资源组。
  选择资源组后，系统会显示资源组的地域、规格等信息以及自动测试资源组与所选数据源之间连通性。
  重要
  请与新增数据源时选择的资源组保持一致。
3. 选择数据去向为Tablestore，并选择数据源名称为新增的目标数据源。
  系统会自动测试资源组与所选数据源之间连通性。
4. 测试可连通后，单击下一步。
5. 在提示对话框，单击确认使用脚本模式。
  重要
  - 表格存储仅支持脚本模式。当存在不支持向导模式的数据源时，如果继续编辑任务，将强制使用脚本模式进行编辑。
  - 任务转为脚本模式后，将无法转为向导模式。
配置任务并保存。
全量数据的同步需要使用到Tablestore Reader与Tablestore Writer插件。脚本配置规则请参见Tablestore数据源。
1. 在配置任务步骤，编辑脚本。
  - 配置Tablestore Reader
    Tablestore Reader插件实现了从Tablestore读取数据，通过您指定的抽取数据范围，可以方便地实现数据增量抽取的需求。具体操作，请参见附录一：Reader脚本Demo与参数说明。
  - 配置Tablestore Writer
    Tablestore Writer通过Tablestore官方Java SDK连接到Tablestore服务端，并通过SDK写入Tablestore服务端。Tablestore Writer本身对于写入过程进行了诸多优化，包括写入超时重试、异常写入重试、批量提交等功能。具体操作，请参见附录二：Writer脚本Demo与参数说明。
2. 按【Ctrl+S】保存脚本。
  说明
  执行后续操作时，如果未保存脚本，则系统会出现保存确认的提示，单击确认即可。
执行同步任务。
说明
全量数据一般只需要同步一次，无需配置调度属性。
1. 单击图标。
2. 在参数对话框，选择运行资源组的名称。
3. 单击运行。
  运行结束后，在同步任务的运行日志页签，单击Detail log url对应的链接后。在任务的详细运行日志页面，查看Current task status对应的状态。
  当Current task status的值为FINISH时，表示任务运行完成。