全部产品
Search
文档中心

大数据开发治理平台 DataWorks:离线同步任务运维

更新时间:Dec 17, 2024

为确保任务运行无误,当您在DataStudio中完成任务开发,并发布至生产环境后,您可以进入运维中心管理离线同步任务、监控任务运行状态、修改同步资源组和查看任务运行日志等。本文列举离线同步任务的常见运维操作。

前提条件

已完成离线同步任务的创建、运行、发布。详情请参见:通过向导模式配置离线同步任务通过脚本模式配置离线同步任务

使用说明

  • 离线同步任务的运维操作与其他离线调度任务操作一致,本文仅以离线同步典型运维操作为例进行说明,更多关于离线调度任务的运维操作,详情请参见:周期任务基本运维操作

  • 为确保周期调度的离线同步任务运行无误,请在任务发布完成后,前往运维中心 > 周期任务运维 > 周期任务界面查看生产环境任务配置(任务代码,任务使用的调度资源组及数据集成任务执行资源组)是否符合预期。

  • DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行,所以离线同步任务除了涉及数据集成任务执行资源组外,还会占用调度资源组资源。如果使用了独享调度资源组,将会产生调度实例费用。您可通过文档对该机制进行了解,详情请参见DataWorks资源组概述

  • 标准模式工作空间下,存在数据源隔离机制。

    • 任务发布至生产调度系统前,默认访问任务配置所用数据源对应的开发环境指定的数据库或数据仓库。

    • 任务发布至生产调度系统后,默认访问任务配置所用数据源对应的生产环境指定的数据库或数据仓库。

    关于数据源开发生产隔离机制,详情请参见:数据源开发和生产环境隔离

任务调度与管理

离线同步依托DataWorks强大的调度能力,为您实现离线任务的周期性自动调度执行,同时,可以结合DataWorks调度参数,实现增量数据和全量数据写入到目标表对应分区,离线同步任务的运维操作与其他离线调度任务操作一致,支持手动触发执行与自动调度执行。

操作

说明

运行离线同步任务

任务发布至生产环境后,您可以进入生产运维中心 > 周期任务界面查看已发布的任务,调度系统会按照调度配置自动运行任务,同时,还支持您手动触发任务执行。

  • 自动调度:任务发布后,调度系统将会根据您配置的实例生成方式生成周期实例并自动调度,您可以进入运维中心 > 周期任务运维 > 周期实例界面查看实例的执行情况。

    说明

    任务提交发布生产环境时,是否当天执行任务与您配置的实例生效时间有关,详情请参见实例生成方式

  • 手动触发:任务发布后,您可以对周期任务执行测试或补数据操作,生成测试实例与补数据实例。

    • 测试操作:用于测试离线调度任务在生产环境的执行情况。

    • 补数据操作:用于对任务执行补历史数据的操作,详情请参见:同步历史数据

暂停离线同步任务调度执行

周期任务界面,您可以对单个任务执行暂停(冻结)操作,使周期调度任务在一段时间内停止调度运行,并且阻塞其下游节点执行。

说明

周期任务运行将生成实例,如果某个实例及其下游实例不需要执行,您可以冻结该实例。

恢复离线同步任务调度执行

周期任务界面,您可以对冻结状态的任务执行恢复(解冻)操作,解冻后的任务将会正常调度运行。

说明

冻结状态的周期任务运行将生成冻结状态的实例,若冻结的实例及其下游实例需要运行,您可以解冻该实例。

同步历史数据

DataWorks的调度参数结合补数据功能,可实现基于一套任务配置,批量将历史数据同步至目标数据库或数据仓库指定表或表指定分区。若您的任务配置为增量同步,且需要同步历史数据至目标表对应分区中,您可以使用补数据功能,调度参数将根据补数据配置的业务日期自动替换为具体的值,关于补数据功能使用,请参见执行补数据并查看补数据实例(新版)

任务状态监控

您可以进入运维中心 > 智能监控配置监控规则,监控任务的运行状态。包括完成、未完成、出错、超时等状态。详情请参见:智能监控概述

资源组运维

  • 资源组监控:您可以在运维中心监控任务运行所用资源组的使用情况。详情请参见资源运维

  • 资源组切换:您可以通过如下方式切换任务使用的资源组。

    说明

    修改资源组前,请确保待切换的资源组与数据源网络已经连通,避免由于资源组与数据源网络不通导致任务执行失败。

    操作环境

    支持的切换操作

    界面入口

    切换生产环境资源组

    批量切换

    进入运维中心 > 周期任务界面设置。

    勾选需要修改资源组的任务,单击底部菜单栏的修改数据集成资源组,即可批量修改。批量切换

    切换开发环境资源组

    说明

    开发环境切换资源组后需要将任务重新提交发布至生产环境。

    • 单个任务切换

    • 批量切换

    进入DataStudio页面设置。

    • 单个任务切换

      进入目标节点的编辑页面,在右侧导航栏的数据集成资源组配置中即可修改。修改数据集成资源组

    • 批量切换

      单击批量操作图标,勾选需要修改资源组的任务,单击底部菜单栏的修改数据集成资源组,即可批量修改。批量操作

表数据质量监控

数据集成部分目标端数据源支持配置产出表的数据质量监控,您可以进入数据质量规则页面,对数据同步写入的目标表配置数据质量校验规则。对于配置了数据质量监控规则的表,当表关联的调度节点运行(执行节点代码逻辑)完成后,将会触发数据质量校验。DataWorks平台将会根据数据质量规则强弱和数据质量规则校验结果决定任务是否由于质量规则校验失败退出,并阻塞下游节点执行,防止脏数据影响范围进一步扩大。数据集成目标端数据源是否支持数据质量监控,及数据质量监控的使用详情请参见数据质量概述

说明

在离线同步任务产出表配置数据质量规则的情况下,请注意任务所使用的调度资源组与目标数据源的网络问题。

查看离线任务运行日志

进入运维中心,待周期实例、补数据实例、测试实例执行完成后,您可以在实例DAG面板查看任务运行日志。详情请参见:附录:DAG图功能介绍

说明

若您需要了解日志执行过程中的相关参数请参见:离线同步日志分析

查看离线数据大屏

您还可以在运维大屏 > 离线同步页面查看离线同步任务的运行状态分布、数据同步进度、同步数据量统计、同步任务执行详情(可基于来源端与目标端数据源,以及任务是否产生公网等条件过滤目标任务)等运行指标信息。详情请参见:查看运维大屏

使用Logview查看任务运行信息

说明

该功能目前在灰度邀测中,如需使用,请联系技术支持人员处理。

数据集成LogView是在数据集成同步任务中进行埋点采集、分析处理、可视化展现等更加细粒度展示分析同步任务过程的同步速率,日志等信息。

  1. 运维中心,找到离线任务的运行实例,单击运行诊断运行诊断

  2. 智能诊断页面,单击数据集成页签。数据集成

    参数

    描述

    日志

    日志页面下,可以查看数据集成同步任务的详细日志。

    进度

    进度页面下,可以查看数据集成同步任务的详细进度信息。包括同步条数同步字节数同步条数速率同步字节数速率进度

    您还可以在该页面执行如下操作:

    • 您可以通过时间筛选框,筛选某段时间内任务的同步信息。

      说明

      时间筛选最多支持查看15天内的详细信息。

    • 在进程列表右侧,单击自定义列图标,可以选择展现更多的列信息。设置

    • 在进程列表中,可以单击具体的内容,查看某个指标的曲线变化。曲线

    实例浏览

    如果该实例是周期实例,您还可以在实例浏览页面下,查看该实例下不同周期各维度的对比详情。

    • 您可以在任务列表中查看该任务的状态以及对应的实例ID,单击实例ID可以查看任务详情。

    • 您还可以在柱状图中对比不同实例之间的同步速率同步条数等待时间同步时长的差异。

后续:离线同步数据质量问题与同步任务调优

离线同步任务运维常见问题