全部产品
Search
文档中心

大数据开发治理平台 DataWorks:配置并管理实时同步任务

更新时间:Nov 13, 2024

整库实时同步方案为您先进行全量数据迁移,然后再实时同步增量数据至目标端。本文为您介绍如何创建整库实时同步MySQL到StarRocks的任务。

前提条件

  • 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见实时同步支持的数据源

    说明

    


数据源相关能力介绍详情请参见:数据源概述

  • 
已购买通用型资源组。详情请参见:通用型资源组(新版资源组)

  • 资源组与数据源网络已打通。详情请参见:网络连通方案

使用限制

实时数据同步任务仅支持使用通用型资源组(新版资源组)

注意事项

  • 整库实时同步MySQL到StarRocks要求您的目标StarRocks表为主键模型。

  • 整库实时同步MySQL到StarRocks暂不支持除清空表(TRUNCATE)以外的DDL同步,对于其他DDL类型您可以选择忽略或报错提示。

操作步骤

步骤一:选择同步方案

  1. 进入数据集成页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

  2. 在数据集成首页单击选择同步任务,进入同步任务配置页面。

    • 选择来源类型MySQL、去向类型StarRocks,点击开始创建

    • 新任务名称区域配置当前方案名称。

    • 同步类型区域根据业务需要选择整库实时

    • 同步步骤按需要进行选择全量同步增量同步、或全量同步+增量同步

步骤二:配置网络连通

源端选择已创建的源端数据源MySQL与目标端数据源StarRocks,以及用于执行同步任务的资源组。并测试资源组与数据源的网络连通。详情请参见:数据集成侧同步任务配置

步骤三:选择待同步的表

此步骤中,您可以在源端库表区域选择源端数据源下需要同步的表,并单击image.png图标,将其移动至已选库表。同时,支持通过正则表达式过滤库与表。

步骤四:目标表映射

在上一步骤选择完需要同步的表后,将自动在此界面展示当前待同步的表,但目标表的相关属性默认为待映射状态,需要您定义并确认源表与目标表映射关系,即数据的读取与写入关系,然后单击刷新映射后才可进入下一步操作。您可以直接刷新映射,或自定义目标表规则后,再刷新映射。

说明
  • 您可以选中待同步表后,单击批量刷新映射,未配置映射规则时,默认根据源表表名写入同名的StarRocks表,若目标端不存在同名表时,将自动新建。

  • 在进行自定义目标表名等操作时,若在表格中未找到相关信息列,您可以单击表格右上方image.png按钮自定义表格的显示列。

目标表名映射自定义

  1. 目标表名映射自定义列,单击编辑按钮。可以使用内置变量和手动输入的字符串拼接成为最终目标表名。其中,支持您编辑内置变量,例如,做字符串替换。

  2. 应用目标表名映射规则。

    • 对某个表修改表名映射:在目标表名映射自定义列,修改具体表的映射规则。

    • 批量表修改表名映射:选中待同步的所有表,在表格底部选择批量修改 > 目标表名映射自定义,选择已创建的规则,使规则生效。

编辑字段类型映射

同步任务存在默认的源端字段类型与目标端字段类型映射,您可以单击表格右上角的编辑字段类型映射,自定义源端表与目标端表字段类型映射关系,配置完后单击应用并刷新映射

编辑目标表结构并添加字段赋值

您可以为目标表在原有表结构基础上新增字段、定义分区或添加字段赋值。

  • 为目标表添加字段

    • 单表新增字段:单击目标表名列的image.png按钮添加字段。

    • 批量新增字段:选中待同步的所有表,在表格底部选择批量修改 > 目标表结构_批量修改和新增字段

  • 为目标表定义分区:当前支持RANGE分区结构化定义

    • 不分区:则目标表为非分区表。

    • 指定区间分区:需指定分区名称、分区值上界、分区值下界。

    • 指定上限值分区:需指定分区名称、分区值上界。

    • 指定区间和步长分区:需指定分区字段、开始值、结束值、分区步长。

  • 为字段赋值

    • 单表赋值:单击目标表字段赋值列的配置,为目标表字段赋值。

    • 批量赋值:选中待同步的所有表,在列表底部选择批量修改 > 目标表字段赋值

DML规则配置

数据集成提供默认DML处理规则,同时,您可以根据业务需要在此界面对写入StarRocks的DML命令定义处理规则。

  • 单表定义规则:单击DML规则配置列,对目标表单独定义DML规则。

  • 批量定义规则:选中待同步的所有表,在列表底部选择批量修改 > DML规则配置

步骤五:报警配置

为避免任务出错导致业务数据同步延迟,您可以对实时同步子任务设置不同的报警策略。

  1. 单击页面右上方的报警设置,进入实时同步子任务报警设置页面。

  2. 单击新增报警,配置报警规则。

  3. 管理报警规则。对于已创建的报警规则,您可以通过报警开关控制报警规则是否开启,同时,您可以根据报警级别报警给不同的人员。

步骤六:高级参数配置

数据集成提供数据库最大连接数,并发度等配置的默认值,如果需要对任务做精细化配置,达到自定义同步需求,您可对参数值进行修改,例如通过最大连接数上限限制,避免当前同步方案对数据库造成过大的压力从而影响生产。

说明

请在完全了解对应参数含义情况下再进行修改,以免产生不可预料的错误或者数据质量问题。

配置区域

参数

说明

读端配置

源端最大连接数

支持您通过该参数控制当前同步方案所产生的同步任务可占用的源端数据库连接数,即同一时间内,当前同步解决方案任务读取数据库的并发数上限。

写端配置

写端最大连接数

支持您通过该参数控制当前同步方案所产生的同步任务可占用的目标端数据库连接数。

运行时配置

任务并发度

支持您通过该参数控制当前同步方案所产生的同步任务的并发数。

数据格式

同步任务写入StarRocks时传输使用的数据格式,可选值jsoncsv,默认json。一般无需修改此默认设置。

行分隔符

如数据格式选择csv,可指定csv行分隔符,默认\x02。注意csv行分隔符不能与您同步数据中的内容相同,否则会造成同步错误。

列分隔符

如数据格式选择csv,可指定csv列分隔符,默认\x01。注意csv行分隔符不能与您同步数据中的内容相同,否则会造成同步错误。

步骤七:DDL能力配置

来源数据源会包含许多DDL操作,您可以根据业务需求,单击界面右上方DDL能力配置,进入DDL能力配置页面对不同的DDL消息设置同步至目标端的处理策略。

说明

整库实时同步MySQL到StarRocks暂不支持除清空表(TRUNCATE)以外的DDL同步。

步骤八:资源组配置

您可以单击界面右上方的资源组配置,查看并切换当前的任务所使用的同步资源组。

步骤九:执行同步任务

  1. 完成所有配置后,单击页面底部的完成配置

    说明

    任务配置已完成,在提示弹窗中,点击确定将会跳转至任务列表页。您可以在任务列表单击任务名称,查看任务详情。

  2. 任务列表中找到已创建的数据同步任务,单击操作列的启动

  3. 单击名称/ID列的任务名称,查看任务的详细执行过程。

步骤十:任务运维

启动同步解决方案任务后,您可以在任务列表列点击任务名称,进入对应任务运维页。任务运维页将按照同步步骤展示对应的概要和详细信息。

image

后续步骤

后续您可以对已创建的任务进行管理、执行加减表操作、或对任务配置监控报警等。