全部产品
Search
文档中心

大数据开发治理平台 DataWorks:智能诊断

更新时间:Nov 15, 2024

您可以使用智能诊断功能对任务进行全链路分析,当任务运行不符合预期时,您可以使用该功能快速定位问题。

功能概述

智能诊断功能可以基于以下维度对任务进行诊断分析:

  • 运行详情

    • 检查上游任务运行情况:上游任务运行失败时,将阻塞当前任务的运行。智能诊断功能可以帮助您迅速定位上游任务运行失败的原因。

    • 检查是否已到达任务设置的定时运行时间。

      说明

      在数据开发模块中定义任务的调度属性时,需要设置任务在调度环境中的预期运行时间,但任务实际运行时间可能由于上游任务运行失败等问题导致任务实际执行时间晚于任务定时时间。

    • 检查调度资源使用情况:您可以查看资源的使用情况及任务等待资源时占用该资源的任务列表。

    • 检查任务执行情况:您可以查看任务的执行日志、已关联的数据质量规则执行详情、任务的代码详情及诊断建议等信息。

    说明
    • 调度任务运行需要满足的条件包括:上游任务运行成功、当前任务定时时间已到、调度资源充足、当前任务未运行等。详情请参见:任务运行条件

    • 如果上游任务为未运行状态且上游依赖层级较深时,建议您先通过DAG面板中的上游分析功能,快速定位阻塞当前任务运行的关键上游任务,再通过智能诊断功能,诊断该关键任务未运行的原因,提升运维效率。

  • 基本信息:支持您查看当前任务运行的关键时间点。

  • 影响的基线:支持您查看将当前任务纳入监控范围的基线列表及基线运行情况。智能基线详情请参见:智能基线概述

  • 历史实例运行情况:支持您通过可视化图表和列表方式查看当前任务近15天内的执行情况。

使用限制

  • 仅DataWorks专业版及以上版本,支持使用运行诊断功能。您目前可以免费体验,但建议您升级到专业版以获取更多产品能力。版本升级详情请参见:DataWorks各版本详解

  • 运行诊断功能支持的地域如下:

    华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)、阿联酋(迪拜)。

进入智能诊断

  1. 进入运维中心页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 运维中心,在下拉框中选择对应工作空间后单击进入运维中心

  2. 进入运维中心后,您可以通过以下两种方式进入智能诊断页面。

    • 方法一:通过实例进入智能诊断。

      • 在左侧导航栏,单击周期任务运维 > 周期实例测试实例。找到目标实例,单击基本信息列中的imageimageimage图标,进入相应实例的智能诊断页面。

      • 在左侧导航栏,单击手动任务运维 > 手动实例。找到目标实例,单击基本信息列中的imageimageimage图标,进入相应实例的智能诊断页面。

      • 在实例列表模式下,单击相应实例操作列的运行诊断。如果当前页面非列表模式,您可单击页面中间的箭头图标返回列表模式。

      • 在DAG模式下,右键单击相应实例的DAG图,选择菜单中的运行诊断。如果当前页面非DAG图模式,您可单击相应实例操作列的DAG图,打开实例的DAG图。

      • 在DAG模式下,单击相应实例的DAG图,在右下角的弹框中,单击任务状态右侧的运行诊断

    • 方法二:在左侧导航栏,单击运维助手 > 智能诊断进入智能诊断页面。

      说明

      智能诊断只支持通过实例ID定位具体实例,您可通过实例详情页获取实例ID。

运行详情

DataWorks根据任务运行的必要条件,将依次检查上游任务的运行状态、当前任务设置的定时时间、调度资源的使用情况以及当前任务的执行情况:

  • 上游依赖

    智能诊断的上游依赖页面,为您展示当前任务的上游任务运行情况,如果上游任务未运行成功,将阻塞当前任务运行,您可以单击上游任务操作列的运行诊断,定位上游任务运行失败的原因。

    说明

    如果上游任务为未运行状态且上游依赖层级较深时,建议您先通过DAG面板中的上游分析功能,快速定位阻塞当前任务运行的关键上游任务,再通过智能诊断功能,诊断该关键任务未运行的原因,提升运维效率。

    上游依赖

  • 定时检查

    定时检查将为您检查当前任务的定时时间是否已到。仅当上游依赖检查通过时,才会触发该检查。定时检查

  • 调度资源

    智能诊断的调度资源页面,为您展示资源使用趋势。如果当前任务该检查未通过,则表示当前任务运行时所使用的调度资源不足,任务将进入等待资源状态,直到占用该调度资源的任务执行结束,释放资源后,才会启动当前任务的运行。您可以根据资源使用趋势,合理安排任务的定时时间,以错峰运行。调度资源

    功能

    描述

    调度资源信息

    为您展示前任务所使用的调度资源组名称、正在该资源组上运行的任务数以及该资源组上正在等待运行的任务数。

    说明

    推荐使用Serverless资源组来缓解资源紧张的情况。

    如果使用公共调度资源组,在每天0点~9点是DataWorks的任务高峰期,公共调度资源紧张,可能出现任务等待资源的情况。

    诊断结果

    为您展示当前任务执行情况。

    资源使用趋势

    如果使用公共调度资源组,则此处为您展示当前调度资源组各时间段内的资源使用率,以及当前任务等待资源的耗时情况。

  • 任务执行

    任务执行为您展示当前任务的执行日志、已关联的数据质量规则执行详情及代码详情等信息,对于运行失败的任务,智能诊断功能会根据日志信息,为您提供智能诊断建议,帮助您快速获取任务的出错原因。任务运行

    功能

    描述

    日志

    为您展示任务的详细执行过程。

    DQC

    如果任务关联了数据质量规则,在任务运行时,将触发数据质量规则运行,您可在此处查看数据质量规则详细执行情况。

    代码详情

    为您展示当前任务的代码详情。

基本信息

您可以在基本信息页面查看当前任务运行的关键时间点和基本信息,相关属性的详细介绍请参见:调度配置基本信息

影响基线

您可以在影响基线页面查看将当前任务纳入监控范围的基线列表及基线运行情况。智能基线详情请参见:智能基线概述影响基线

历史实例

您可以在历史实例页面查看如下信息:

  • 当前任务各维度指标的变化趋势:通过可视化图表方式为您展示当前任务近15天内运行耗时开始运行时间等待资源耗时完成时间的变化趋势。

  • 当前任务的历史实例运行情况:通过列表方式为您展示当前任务的历史实例运行详情,包括实例开始时间、结束时间、运行时长、等待资源耗时等。支持您单击操作列的运行诊断跳转至对应实例的诊断详情页面。

历史实例