全部产品
Search
文档中心

大数据开发治理平台 DataWorks:全增量同步任务运维

更新时间:Feb 23, 2024

完成任务配置后,您可以对已创建的任务进行管理,同时,您还可以查看任务运行的指标详情。本文为您介绍全增量同步任务的常见运维操作。

背景信息

本文仅说明全增量同步任务常见的运维操作,全增量同步任务产生的实时同步子任务运维操作请参见:实时同步任务运维;离线子任务运维操作参考:离线同步任务运维

管理全增量同步任务

任务配置完成后,您可以在数据集成 > 同步任务页面查看已创建的同步任务列表,您可以根据不同条件筛选同步任务。并对相应的同步任务执行如下操作:

操作

说明

启动

单击对应同步任务操作列的提交执行,启动同步任务的运行。

编辑

实际生产环境业务会随着时间推移不断演进,源端的业务表可能会持续新增,全增量同步任务支持增加或删除表。您可以单击操作更多 > 修改配置,进入任务配置界面进行增加或删除表,配置完成后,您可以单击提交执行,提交执行任务时,会和上一次运行成功的任务对应的表做对比,当发现新增表时则会执行新增表的添加流程。详情请参见:增加或删除已运行任务的同步表

如果同步方案类型为一键实时同步,将先对新增表进行全量初始化,执行完成后会将新增表加入实时同步任务并启动实时同步。

说明
  • 重置实时同步任务位点并启动运行时,会存在一个新增表追加变更数据的过程,即任务位点时间重置到新增表全量数据初始化时的时间。例如,您的同步任务8点开始运行,到9点时运行未结束。9点时新增了一张表,则全量数据初始化在9点开始执行,此过程耗时1小时,即全量数据初始化在10点完成。此时,已经正在运行的实时同步任务会先停止,然后重置任务位点到9点,进行追加增量数据,9点到10点之间所有变更表的增量数据会被重新同步至Hologres目标表,一键新增表只保证数据的最终一致性。

  • 若您需要对所有表执行初始化操作,请使用强制重跑功能。

强制重跑

在某些特殊情况下,例如发现源端数据被污染、数据链路出现问题等,您可以单击操作更多 > 强制重跑强制对源端所有表进行全增量初始化操作,将源端数据重新迁移到目标表中,以快速恢复数据。

说明
  • 仅Hologres和MaxCompute支持强制重跑同步任务。

  • 强制重跑暂不支持分库分表全增量同步任务。

其中一键实时同步至MaxCompute任务需要重跑流程恢复数据的常见场景如下:

  • 实时任务失败太久导致Binlog被清理,无法补回增量数据。

  • 由于各种原因导致目标表缺失了新增列。

  • 由于各种原因导致目标表数据出现了缺失或者不正确的问题。

重要
  • 强制重跑会同步源表的列到目标表,如果目标表缺失了源表的列则会进行加列补齐。

  • 执行强制重跑前,需要确认是否可能和正在运行或者即将运行的Merge任务实例产生冲突(同时运行时,如果业务日期相同,分区数据或者表数据可能会相互覆盖)。

    您可以在DataWorks运维中心查看周期实例页面查看该同步任务Merge实例的执行情况,如果Merge任务和强制重跑操作产生冲突,您可以:

    • 暂停强制重跑操作,等待Merge任务执行完成后,再执行强制重跑操作。

    • 冻结即将运行的Merge实例,等待强制重跑成功后,恢复Merge实例。

  • 强制重跑执行完成后,如果次日数据未产出或者Merge任务没有恢复自动运行,您需要手动确认并恢复该Merge实例的运行:

全量补数据

该功能适用于MaxCompute目标表由于各种原因出现了数据缺失等正确性问题,需要重新同步全量数据补回全量数据的场景。

说明
  • 仅一键实时同步至MaxCompute任务支持全量补数据。

  • 全量补数据暂不支持分库分表同步任务。

单击对应同步任务操作列的全量补数据,配置全量补数据参数:

  1. 选择补数据的业务日期。

    对于分区表,全量数据会同步到业务日期对应的日期分区中。

  2. 选择补数据端表。

    在左侧选择框,选择要执行全量同步的表,单击图标图标,将其添加至右侧。

  3. 单击确定按钮,开始全量补数据操作。

重要
  • 当前业务日期仅支持选择单日,如果要补多日的全量数据,需要执行多次全量补数据。

  • 一键全量同步会同步源表和目标表的共同列,以及全增量同步任务中定义的附加列。

  • 执行全量补数据前,需要确认补数据的业务日期,是否可能和正在运行或者即将运行的Merge任务实例产生冲突(同时运行时,如果业务日期相同,分区数据或者表数据可能会相互覆盖)。

    您可以在DataWorks运维中心查看周期实例页面查看该同步任务Merge实例的执行情况,如果Merge任务和全量补数据操作产生冲突,您可以:

    • 暂停全量补数据操作,等待Merge任务执行完成后,再执行全量补数据操作。

    • 冻结即将运行的Merge实例,等待全量补数据完成后,恢复Merge实例。

停止

运行中的任务,可以单击操作列的停止,终止同步任务的运行。

查看任务运行概况

您可以进入数据集成 > 任务运维页面查看所选时间周期中目标全增量同步任务的运行状态概况。主要内容如下:

  • 总运行状态分布区域展示当前所选时间周期,目标任务的个数及运行结果的状态分布,统计的是任务运行成功及失败状况。您可以单击饼图中的某个色块,进入相应状态的任务列表,在任务列表页面查看相应任务的执行详情。任务的执行详情内容介绍请参见查看任务执行详情

  • 资源组水位区域展示当前登录阿里云的账号所使用的资源组规格及使用情况。您可以单击资源组名称,进入目标资源组详情页面,查看资源组的基本信息及使用详情。资源组的详细内容介绍请参见查看独享资源组的使用详情

  • 离线同步子任务区域展示当前所选时间周期,目标全增量同步任务包含的离线同步任务个数、同步速率、运行结果的状态分布,以及同步数据情况。

    • 运行结果统计的是任务运行成功及异常状况。

    • 同步数据说明如下:

      • 同步任务数:显示当前同步任务中运行成功的任务个数。

      • 同步数据量:显示当前同步任务中的已同步数据量,包含已运行成功任务同步的数据量及运行中任务已同步的数据量。

      • 同步记录数:显示当前同步任务中的已同步数据的条数记录。

    说明

    离线同步子任务的统计情况每小时更新一次。

  • 实时同步子任务区域展示当前所选周期,目标全增量同步任务包含的实时同步任务个数、同步速率、运行结果的状态分布,以及运行中任务延迟排行TOP10的延迟情况。您可以单击任务名称,进入实时任务运维页面查看任务详情。

查看任务执行详情

您可以单击数据集成 > 同步任务,进入任务列表页面。

在任务列表页面,为您展示全增量同步任务的任务类型任务名称及可执行的相关操作等信息,您可以在目标同步任务的操作列单击执行详情,查看任务执行的详细信息。主要内容如下:

  • 执行数据区域展示当前查看任务的同步前置环境准备全量离线同步实时同步等子任务的执行状态。您可以根据执行状态,判断各个子任务是否正常运行,便于快速定位全增量同步任务执行的阻塞点。状态如下:

    • 显示运行成功图标,则表示任务执行成功。

    • 显示异常图标,则表示任务执行异常。

    • 显示等待运行图标,则表示任务等待运行。

  • 全量离线同步实时同步区域展示当前查看的全增量同步任务中,全量离线同步实时同步子任务同步的来源数据源、当前同步速率、同步数据、同步数据的延迟情况及所使用资源组的详细信息。

  • 执行步骤区域展示当前查看的全增量同步任务,从创建任务到启动执行离线任务、实时任务的所有流程步骤。您可以在该区域查看所有步骤的执行时间及执行状态。