全部产品
Search
文档中心

大数据开发治理平台 DataWorks:一键实时同步至MaxCompute

更新时间:Jun 24, 2024

一键实时同步至MaxCompute方案支持全增量一体化同步,先进行全量数据迁移,然后再实时同步增量数据至目标端。本文为您介绍如何创建一键实时同步至MaxCompute任务。

前提条件

  1. 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案

    说明

    数据源相关能力介绍详情请参见:数据源概述

  2. 已完成数据源环境准备。您可以基于您需要进行的同步配置,在同步任务执行前,授予数据源配置的账号在数据库进行相应操作的权限。详情请参见:数据库环境准备概述

背景信息

本方案运行后会自动建立Merge任务,用于将全增量数据进行合并,其中,增量数据实时写入MaxCompute的Log表,Log表再定期与Base表进行合并(Merge),最终将结果写入Base表中。目前全增量Merge的频率为一天一次。

方案属性

说明

可同步的表个数

  • 支持将源端多表数据写入至目标端多表。

  • 支持通过目标表配置规则实现源端多表数据写入至目标端单表。

任务组成

当前方案将分别创建用于全量数据初始化的离线同步子任务,和用于增量数据实时同步的数据集成实时同步子任务,方案产生的离线同步子任务个数与最终读取的表个数有关。

数据写入

支持全增量数据实时写入,也支持仅进行增量数据实时同步。全增量Merge分为3个阶段:

  1. 任务配置当天,执行全量数据初始化的离线同步任务。

  2. 任务配置当天,待全量数据初始化完成后,启动实时同步任务,将增量数据实时同步至MaxCompute Log表。

  3. 任务配置第二天,Merge任务将Base表全量数据与实时同步任务的增量数据进行Merge,最后将结果写入Base表。

说明
  • 全量数据初始化完成后,该离线同步任务将会被冻结。

  • 支持写入MaxCompute分区表与非分区表。

以写入分区表为例:一键实时同步

注意事项

  • 当实时同步至MaxCompute数据源且使用临时AK进行同步时,临时AK超过7天会自动过期,同时,将导致任务运行失败。平台检测到临时AK导致任务失败时会自动重启任务,如果任务配置了该类型的监控报警,您将会收到报警信息。

  • 一键实时同步至MaxCompute任务配置当天仅能查询历史全量数据,增量数据需要等待第二天merge完成后才可在MaxCompute查询,详情请参见背景信息中数据写入部分中的内容。

  • 本方案每天会生成一个全量分区,为避免数据过多占用存储资源,本方案任务自动建立的MaxCompute表,默认生命周期为30天。如果时长不满足您的业务需求,可以在配置同步任务时单击对应的MaxCompute表名修改生命周期。详情请参见:步骤四:设置目标表

  • 数据集成使用MaxCompute引擎同步数据通道进行数据上传和下载(同步数据通道SLA详情请参见数据传输服务(上传)场景与工具),请根据MaxCompute引擎同步数据通道SLA评估数据同步业务技术选型。

  • 一键实时同步至MaxCompute,按实例模式同步时,独享数据集成资源组规格最低需要为8C16G。

使用限制

仅支持与当前工作空间同地域的自建MaxCompute数据源,跨地域的MaxCompute项目在测试数据源服务连通性时可以正常连通,但同步任务执行时,在MaxCompute建表阶段会报引擎不存在的错误。

说明

使用自建MaxCompute时,DataWorks工作空间的数据开发中仍需要绑定MaxCompute数据源,否则将无法创建MaxCompute SQL节点,导致全量同步标done节点创建失败。

计费说明

一键实时同步至MaxCompute解决方案需要定期做全增量数据周期合并,因此会消耗MaxCompute计算资源。这部分费用由MaxCompute直接收取,费用与用户同步全量数据大小、合并周期正相关。具体费用请参考计费项与计费方式概述

操作流程

  1. 步骤一:选择同步方案

  2. 步骤二:配置网络连通

  3. 步骤三:设置同步来源与规则

  4. 步骤四:设置目标表

  5. 步骤五:DDL消息处理策略

  6. 步骤六:设置任务运行资源

  7. 步骤七:执行同步任务

步骤一:选择同步方案

创建同步解决方案任务,根据需求选择需要同步的源端数据源,目标端数据源MaxCompute,并选择一键实时同步至MaxCompute方案。

步骤二:配置网络连通

源端选择已创建的源端数据源与目标端数据源,以及用于执行同步任务的资源组。并测试资源组与数据源的网络连通。详情请参见:配置同步网络链接

步骤三:设置同步来源与规则

  1. 基本配置区域,配置同步解决方案的名称、任务存放位置等信息。

  2. 数据来源区域,确认需要同步的源端数据源相关信息。

  3. 选择同步的源表区域,选中需要同步的源表,单击图标图标,将其移动至已选源表

    该区域会为您展示所选数据源下所有的表,您可以选择整库全表或部分表进行同步。

  4. 设置表(库)名的映射规则区域,单击添加规则,选择相应的规则进行添加。

    同步时默认将源端数据表写入目标端同名表中,如果目标端不存在该表,将会自动创建。同时,您可以通过添加映射规则定义最终写入目的端的表名称。映射规则包括源表名和目标表名转换规则目标表名规则

    • 源表名和目标表名转换规则:源端表名支持通过正则表达式转换为目标端最终写入的表名。

      • 示例1:将源端doc_前缀的表数据,写入前缀为pre_的目标表中。改名

      • 示例2:将多张表数据写入到一张目标表。

        将源端名称为 "table_01","table_02","table_03" 的表同步至一张名为 "my_table" 的表中。配置正则表名转换规则为::table.*,目标:my_table。示例

    • 目标表名规则:支持您使用内置的变量组合生成目标表名,同时,对转换后的目标表名支持添加前缀和后缀。可使用的内置变量有:

      • ${db_table_name_src_transed}:“源表名和目标表名转换规则”中的转换完成之后的表名。

      • ${db_name_src_transed}:“源库名和目标Schema名转换规则”中的转换完成之后的目标Schema名。

      • ${ds_name_src}:源数据源名。

      示例:对上一步源表名和目标表名转换规则转换后的表名做进一步字符串拼接处理,使用${db_table_name_src_transed}代表上一步的处理结果“my_table”,再为该内置变量增加前缀和后缀,例如,pre_${db_table_name_src_transed}_post,最终就映射到了名为“pre_my_table_post”的目标表。

步骤四:设置目标表

  1. 设置写入模式

    目前支持将增量数据实时写入MaxCompute的Log表,Log表中的增量数据再定期与目标端Base表全量数据进行合并(Merge),最终将结果写入Base表中。

  2. 时间自动分区设置。

    您可以在时间自动分区设置配置该任务写入MaxCompute分区表或是非分区表,并定义分区字段的名称。

    说明

    若选择写入分区表,可单击编辑图标定义目标表分区字段名称。

  3. 刷新源表与目标表映射。

    单击刷新源表和MaxCompute表映射将根据您在步骤三配置的目标表名映射规则来生成目标表,若步骤三未配置映射规则,将默认写入与源表同名的目标表,若目标端不存在该同名表,将默认新建。同时,您可以修改表建立方式,为目标表在源有表字段基础上增加附加字段。

    说明

    目标表名将根据您在设置表(库)名的映射规则阶段配置的表名转换规则自动转换。

    功能

    描述

    为非主键表选择主键

    由于当前方案不支持无主键表同步,所以您需要单击同步主键列的编辑按钮,为无主键表设置自选主键,即选择表中一个或部分字段作为主键,写入目标端时将会使用该主键进行去重。

    选择表建立方式

    支持自动建表使用已有表

    • 表建立方式选择使用已有表时,MaxComputeBase 表名列显示已有MaxCompute表。您也可以在下拉列表中选择需要使用的表名称。

    • 表建立方式选择自动建表时,显示自动创建的表名称。您可以单击表名称,查看和修改建表语句。

    是否全量同步

    您可以在全量同步列选择是否需要在实时同步前先将全量数据同步至目标端。

    如果关闭全量同步,则对应的表将不进行离线全量同步。适用于已经通过其他方式将全量数据同步至目标端的场景。

    为目标字段添加附加字段

    单击操作列的编辑附加字段,可以为目标表在源端字段的基础上增加字段并为字段赋值。支持手动赋值常量与变量。

    说明

    仅在表建立方式自动建表时,可以使用此功能。

    数据集成附加字段支持的变量字段如下:

    EXECUTE_TIME:执行时间
    UPDATE_TIME:更新时间
    DB_NAME_SRC:原始数据库名称
    DB_NAME_SRC_TRANSED:转换后数据库名称
    DATASOURCE_NAME_SRC:源端数据源名称
    DATASOURCE_NAME_DEST:目的端数据源名称
    DB_NAME_DEST:目的端数据库名称
    TABLE_NAME_DEST:目的端表名称
    TABLE_NAME_SRC:源端表名称

    编辑目标表结构

    目前自动建表生成的MaxCompute表生命周期默认只有30天,并且可能存在字段类型映射,即若目标端数据库中没有与源端一致的数据类型时,同步任务在自动创建目标表时,将自动为源端字段匹配目标端可写入的字段类型。若您需要修改MaxCompute表生命周期或修改目标表字段类型映射,您可单击MaxComputeBase 表名列的目标表名进行修改。

    说明

    仅在表建立方式自动建表时,可以使用此功能。

  4. 目标表、字段及数据读取写入关系确认无误后,单击下一步

步骤五:DDL消息处理策略

来源数据源会包含许多DDL操作,数据集成体提供默认处理策略,您也可以根据业务需求,对不同的DDL消息设置同步至目标端的处理策略。不同DDL消息处理策略请参见:DDL消息处理规则

步骤六:设置任务运行资源

当前方案创建后将分别生成全量数据离线同步子任务和增量数据实时同步子任务。您需要在运行资源设置界面配置离线同步任务和实时同步任务的相关属性。

包括实时增量同步及离线全量同步使用的独享数据集成资源组、离线全量同步使用的调度资源组,同时,单击高级配置可配置是否容忍脏数据、任务最大并发数、源库允许支持的最大连接数等参数。

说明
  • DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行,所以离线同步任务除了涉及数据集成任务执行资源组外,还会占用调度资源组资源。如果使用了独享调度资源组,将会产生调度实例费用。您可通过任务下发机制对该机制进行了解。

  • 离线和实时同步任务推荐使用不同的资源组,以便任务分开执行。如果选择同一个资源组,任务混跑会带来资源抢占、运行态互相影响等问题。例如,CPU、内存、网络等互相影响,可能会导致离线任务变慢或实时任务延迟等问题,甚至在资源不足的极端情况下,可能会出现任务被OOM KILLER杀掉等问题。

步骤七:执行同步任务

  1. 进入数据集成 > 同步任务界面,找到已创建的同步方案。

  2. 单击操作列的启动/提交执行按钮,启动同步的运行。

  3. 单击操作列的执行详情,查看任务的详细执行过程。

后续步骤

完成任务配置后,您可以对已创建的任务进行管理、执行加减表操作,或对任务配置监控报警,并查看任务运行的关键指标等。详情请参见:全增量同步任务运维

附:Base表数据未产出排查思路

Merge流程

现象

原因

解决方案

一键odpsmerge逻辑

增量Log表T-1分区数据产出检查失败。

实时同步任务执行异常,导致增量Log表T-1分区数据未正常产出。

  • 检查实时同步任务失败原因,并从失败位点重启该任务。

    说明

    RDS Binlog保留时长有限制,若对应时间点Binlog被清理,实时同步将会报错位点找不到。

  • 为实时同步子任务设置监控报警。

目标端Base表T-2分区数据产出检查失败。

  1. 前一天Merge任务执行失败。

  2. Base表前一天分区被删除。