全部产品
Search
文档中心

大数据开发治理平台 DataWorks:Serverless同步任务配置

更新时间:Oct 29, 2024

本文介绍数据集成Serverless同步任务的特性以及相关配置。

使用限制

  • 支持地域:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、英国(伦敦)、美国(硅谷)、美国(弗吉尼亚)、日本(东京)、德国(法兰克福)、马来西亚(吉隆坡)。

  • 目前支持的同步类型:

    • MySQL-Hologres整库实时(固定选表 + 正则选表)

    • Hologres-Hologres整库离线

  • 目前只支持当前地域当前主账户拥有的数据源。

使用说明

  • Serverless同步任务无资源组的概念,您只需关注同步业务本身。

  • Serverless同步任务无需关注网络打通情况,但是两端数据源关联的VPC网段不能冲突。

  • Serverless同步任务属于按量计费任务,任务启动自动生成一个订单ID,订单ID在阿里云订单系统可以查询详情扣费信息,计费参考:DataWorks Serverless资源组性能指标及购买建议

  • Serverless任务只有在启动的时候才会进行按量计费,当任务停止或者失败时(非运行态)停止计费。如果不需要任务可以进行任务删除,删除为不可逆操作,删除任务的同时会进行订单释放。

配置Serverless同步任务

步骤一:创建Serverless同步任务

  1. 进入数据集成页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

  2. 在左侧导航栏单击Serverless 同步任务

    image

  3. Serverless同步任务区域,选择数据来源和数据去向,单击新建 Serverless 同步任务

步骤二:配置基本信息

  • 如需使用已添加的数据源,可单击使用已有数据源,从已有数据源中选择,数据源的相关信息将会自动获取。

  • 此处选择的数据来源数据去向无需先在数据集成或管理中心中添加数据源,您也可以直接在此处配置数据来源数据去向的详细信息。

  • 数据来源和数据去向信息配置完成后,单击测试,对于阿里云RDS以及阿里云Hologres实例,在没有特殊设置白名单时,连通性会自动测试通过,如果设置了白名单,请放行相关IP地址,具体IP地址清单请参见网络连通与白名单配置

步骤三:任务配置

根据具体任务类型按界面说明进行同步相关配置。

步骤四:完成配置

配置上述信息后,单击完成配置

第一次完成配置会自动进行配置检查,注意这里的配置检查不阻塞完成配置,只是做预检查。

启动任务

  • 启动任务会自动再触发一次配置检查,注意此处的配置检查为强制行为,当配置检查不通过时,则阻塞任务启动。

  • 配置检查的检查项根据同步任务不同而有所不同。

  • 初次启动会检查启动用户的权限是否允许,权限与Serverless通用资源组按量付费购买权限一致,需拥有AliyunBSSOrderAccessAliyunDataWorksFullAccess权限的用户才可以启动。

任务详情

单击Serverless同步任务的任务名称/ID列或单击执行概况列的内容,进入任务详情页。

  • 基本信息:包括任务的数据源信息,计费订单ID以及同步方案。

  • 执行状态:同步任务每一步骤的具体执行状态,您还可以查看运行日志、Failover和资源利用率。

  • 详细信息:包括结构迁移、全量初始化和实时同步的详细信息。

任务修改

  1. 单击目标Serverless同步任务操作列的编辑,进入任务配置页面。

  2. 您可以对同步表进行新增、删除或修改,然后单击完成配置

  3. 单击操作列的应用更新

    • 应用更新会自动进行预检查,如果检查不过会阻塞应用更新

    • 应用更新对应的检查项比初次启动时要少,由于资源已经初始化完成,所以应用更新初次启动少了个资源准备的阶段。

附录

查看任务订单详情

Serverless同步任务与其他同步任务不同,此类任务无资源组信息,而是以任务订单进行结算,任务为按量付费。

说明

Serverless任务只有在启动的时候才会进行按量计费,当任务停止或者同步失败的时候(非运行态)停止计费。如果不需要任务可以进行任务删除,删除为不可逆操作,删除任务的同时会进行订单释放。

您可以通过如下方式查询订单。

  1. 单击Serverless同步任务的任务名称/ID列或单击执行概况列的内容,进入任务详情页。

  2. 基本信息区域获取计费订单ID

    image

  3. 前往阿里云订单管理,根据计费订单ID查询订单详情。

高级配置

设置同步来源与规则

选择源端数据源中需要同步的库和表后,同步任务默认将源端数据库、数据表写入目标端同名Schema或同名表中,如果目标端不存在该schema或表,将会自动创建。同时,您可以通过目标Schema名映射自定义目标表名映射自定义定义最终写入目标端的Schema或表名称。实现统一将源端某固定前缀的库名或表名在写入目标库或表时更新为其他前缀。

设置目标表

您可以定义写入目标表的相关属性,例如,选择写入目标端已有表还是新建表、添加字段、是否写入分区表以及设置分区字段名称、存储模式以及配置目标表字段赋值等。

说明

此步骤中,单击应用并刷新映射按钮后,将会根据配置的表规则来映射源端表与目标端表的写入关系。

设置写入规则

来源数据源会包含许多DDL或DML操作,为保障数据符合预期,您可以根据写入的目标端数据源类型配置DDL或DML消息处理策略。DDL消息处理策略详情请参见:DDL消息处理规则DML消息处理策略