全部产品
Search
文档中心

大数据开发治理平台 DataWorks:通过脚本模式配置离线同步任务

更新时间:Dec 17, 2024

当您需要实现更精细化的配置管理时,您可以使用脚本模式配置离线同步任务,通过编写数据同步的JSON脚本并结合DataWorks调度参数使用,将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务的常见配置,各数据源配置存在一定差异,请以具体数据源配置文档为准。

背景信息

数据集成离线同步,为您提供数据读取(Reader)和写入插件(Writer)实现数据的读取与写入,您可通过向导模式和脚本模式配置离线同步任务,实现源端单表同步至目标端单表、源端分库分表同步至目标端单表两类数据同步场景。详情请参见离线同步能力说明

使用场景

以下场景可使用脚本模式配置同步任务:

  • 数据源本身不支持使用向导模式配置任务。

    说明

    数据源是否支持向导模式,以界面提示为准。

    image.png

  • 部分数据源的配置参数仅支持使用脚本模式配置任务。

  • 部分不支持在DataWorks创建的数据源可以通过脚本模式配置。

前提条件

  1. 已完成数据源配置。在设置数据集成同步任务之前,请确保已在DataWorks的数据源管理中配置好所需的源数据库和目标数据库。数据源配置详情请参见数据源列表

    说明
  2. 已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组

  3. 独享数据集成资源组与数据源网络已打通。详情请参见:配置资源组与网络连通

进入数据开发界面

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

开发流程

  1. 步骤一:新建离线同步节点

  2. 步骤二:配置同步网络链接

  3. 步骤三:转脚本模式并导入模板

  4. 步骤四:编辑脚本,配置同步任务

  5. 步骤五:配置调度属性

  6. 步骤六:提交并发布任务

步骤一:新建离线同步节点

  1. 创建业务流程。详情请参见:创建业务流程

  2. 创建离线同步节点。

    你可以通过以下两种方式创建离线同步节点:

    • 方式一:展开业务流程,右键单击数据集成 > 新建节点 > 离线同步

    • 方式二:双击业务流程名称,将数据集成目录下的离线同步节点直接拖拽至右侧业务流程编辑面板。

  3. 根据界面提示创建离线同步节点。

步骤二:配置同步网络链接

选择离线同步任务的数据来源和数据去向,以及用于执行同步任务的资源组,并测试连通性。

说明

步骤三:转脚本模式并导入模板

单击工具栏中的转换脚本图标。转换脚本

如果脚本还未配置,您可以通过单击工具栏中的导入模板图标,根据界面提示快速导入脚本模板。

步骤四:编辑脚本,配置同步任务

脚本模式通用配置如下:

说明
  • type、version字段为默认值,不可修改。

  • 您可忽略脚本中Processor相关配置(不需要配置)。

脚本

  1. 配置读端与写端的基础信息与字段映射关系。

    重要

    各插件配置存在一定差异,以下内容仅以常见配置为例进行说明,各插件是否支持相关配置以及配置的具体实现,请以具体插件配置文档为准。详情请参见支持的数据源与读写插件

    通过配置参数您可以:

    • 读取端(Reader)

      操作

      说明

      配置同步范围

      部分插件可利用过滤参数实现增量同步,例如,通过MySQL Reader插件同步MySQL数据时,使用MySQL Reader插件的where参数结合DataWorks调度参数实现增量同步。关于增量数据同步配置详情请参见:场景:配置增量数据离线同步任务

      说明
      • 具体插件是否支持增量同步,及对应增量同步的具体实现,各个插件存在差异,请以实际插件文档为准。

      • 支持增量同步相关参数的插件在配置同步任务时,若不配置数据过滤条件,则默认同步全量数据。

      • 在数据过滤和目标表相关配置中定义的变量,当单击下一步,配置调度属性时,您可以为此处定义的变量赋值。实现增量或全量数据写入目标表对应时间分区等功能,关于调度参数的使用详情请参见:调度参数支持的格式

      • 增量同步过滤条件的语法与数据库语法基本一致,同步时,离线同步将拼接为完整SQL向对应数据源抽取数据。

      关系型数据库配置切分键

      定义将源端待同步数据基于源端哪一个字段进行切分,同步任务执行时将根据该字段切分为多个task,以便并发、分批读取数据。

      说明
      • 推荐splitPk用户使用表主键,因为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。

      • 目前splitPk仅支持整型数据切分,不支持字符串、浮点和日期等其他类型 。如果您指定其他非支持类型,将会忽略splitPk功能,使用单通道进行同步。

      • 如果不填写splitPk,包括不提供splitPk或者splitPk值为空,数据同步视作使用单通道同步该表数据 。

      • 并非所有插件均支持指定切分键配置任务切分逻辑,以上仅为示例,请以具体插件说明为准。详情请参见支持的数据源与读写插件

      为目标字段赋值

      支持在源表待同步字段(column)上,为目标表增加常量与变量。例如,‘123’、'${变量名}'。在此处定义的变量,当单击下一步,配置调度时,可以为变量赋值。关于调度参数的使用详情请参见:调度参数支持的格式

      编辑源端表字段

      您可使用源端数据库支持的函数,对字段进行函数处理,例如,通过Max(id)控制仅同步最大值。

      说明

      MaxCompute Reader暂不支持使用函数。

    • 写入端(Writer)

      操作

      说明

      配置同步前后执行语句

      部分数据源支持在同步前(数据写入目标端数据源前)与同步完成后(数据写入目标端后),在目标端执行相关数据库SQL。

      示例:MySQL Writer支持配置preSql与postSql,即在数据写入MySQL前或后,可以执行一些MySQL命令。例如在MySQL Writer端导入前准备语句(preSql)配置项中配置MySQL清空表命令truncate table tablename,实现同步前(写入MYSQL数据前)先清空表中的旧数据的操作。

      定义冲突时的写入模式

      定义路径或主键等场景冲突时以何种方式写入目标端。该配置根据数据源本身特性及writer插件支持情况,此处配置不同。您需要参考具体writer插件进行配置。

  2. 通道控制。

    您可以在setting域中进行效率配置,主要包括并发数设置、同步速率设置、同步脏数据设置等信息。

    参数

    描述

    executeMode(分布式处理能力)

    用于控制是否开启分布式模式来执行当前任务。

    • distribute:开启分布式处理能力。分布式执行模式可以将您的任务切片分散到多台执行节点上并发执行,进而做到同步速度随执行集群规模做水平扩展,突破单机执行瓶颈。

    • null:不开启分布式处理能力。配置的并发数据仅仅是单机上的进程并发,无法利用多机联合计算。

    重要
    • 如果使用独享数据集成资源组,且只有1台机器,不建议使用分布式,因为无法利用多机资源能力。

    • 如果单机已经满足速度需要,建议优选单机模式,简化任务执行模式。

    • 并发数大于等于8个才能开启分布式处理能力。

    • 部分数据与支持分布式模式执行任务,详情请参见具体插件配置文档。

    • 开启分布式处理开关会占用更多资源,如运行时报错内存溢出(OOM),可尝试关闭此开关。

    concurrent(任务期望最大并发数)

    用于定义当前任务从源端并行读取或并行写入目标端的最大线程数。

    说明

    由于资源规格等原因,实际执行时并发数可能小于等于此处配置的并发数,调试资源组收费将按照实际执行的并发数收费。详情请参见:性能指标

    throttle(同步速率)

    用于控制同步速率。

    • true:限流。以保护读取端数据库,避免抽取速度过大,给源库造成太大的压力。限速最小配置为1MB/S。

      说明

      throttle设置为true时,您还需要设置mbps(同步速率)参数。

    • false:不限流。在不限流的情况下,任务将在所配置的并发数的限制基础上,提供现有硬件环境下最大的传输性能。

    说明

    流量度量值是数据集成本身的度量值,不代表实际网卡流量。通常,网卡流量是通道流量膨胀的1至2倍,实际流量膨胀取决于具体的数据存储系统传输序列化情况。

    errorLimit(错误记录数控制)

    用于定义脏数据阈值,及对任务的影响。

    重要

    当脏数据过多时,会影响同步任务的整体同步速度。

    • 不配置时默认允许脏数据,即任务产生脏数据时不影响任务执行。

    • 配置为0,表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。

    • 允许脏数据并设置其阈值时:

      • 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。

      • 若产生的脏数据超出阈值范围,同步任务将失败退出。

    说明

    脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据。单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。

    例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。您可以在同步任务配置时,控制同步过程中是否允许脏数据产生,并且支持控制脏数据条数,即当脏数据超过指定条数时,任务失败退出。

    说明

    任务整体同步速度除受到上述配置影响外,还受源端数据源性能,同步网络环境等多方面影响,关于同步速率说明与调优,详情请参见离线同步任务调优

步骤五:配置调度属性

周期性调度的离线同步任务需要配置任务自动调度时的相关属性,此步骤为您介绍如何配置调度相关属性。您可以进入离线同步节点的编辑页面,单击右侧的调度配置,下文将为您介绍如何在同步任务中配置节点调度属性。调度参数使用说明请参见数据集成使用调度参数的相关说明

  • 配置节点调度属性:用于为任务配置阶段使用的变量赋值调度参数,您在上述配置中定义的变量均可以在此处进行赋值,支持赋值常量与变量。

  • 配置时间属性:用于定义任务在生产环境的周期调度方式。您可以在调度配置的时间属性区域,配置任务生成周期实例的方式、调度类型、调度周期等属性。

  • 配置资源属性:用于定义调度场景下,将当前任务下发至数据集成任务执行资源时所使用的调度资源组,您可以在调度配置的资源属性区域,选择任务调度运行时需要使用的资源组。

    说明

    数据集成离线任务通过调度资源组下发至对应的数据集成任务执行资源组上运行,会产生调度相关费用,关于任务下发机制说明,请参见任务下发机制

步骤六:提交并发布任务

若任务需要进行周期性调度运行,您需要将任务发布至生产环境。关于任务发布,详情请参见:发布任务

后续步骤

任务发布至生产环境后,您可进入生产环境运维中心查看该调度任务,关于离线同步任务的运行与管理、状态监控、资源组运维等操作详情请参见:离线同步任务运维

相关文档