全部产品
Search
文档中心

大数据开发治理平台 DataWorks:智能监控概述

更新时间:Oct 23, 2024

智能监控功能支持您通过配置自定义规则,实现对任务运行状态及资源使用情况的监控;通过配置智能基线,保障复杂依赖场景下重要数据在预期时间内正常产出。同时,您还可以根据业务需求自定义资源组运维规则,实现资源组的自动化运维。

功能介绍

各模块功能介绍如下:

功能

描述

智能基线

智能基线能够及时捕捉导致基线上任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出。

  • 创建及管理基线,详情请参见:基线管理

  • 查看基线实例运行情况,详情请参见:基线实例

  • 查看事件报警信息,详情请参见:事件管理

规则管理

您可以在规则管理界面管理全局规则,同时,还支持您根据业务需求自定义监控规则。

  • 全局规则:系统内置全局报警规则(非空间级别报警规则)对周期任务的状态进行监控,避免周期任务异常导致周期实例无法正常调度执行,详情请参见:周期任务状态监控

  • 自定义监控规则:

    • 周期任务周期性调度时将产生周期实例,DataWorks支持通过周期任务配置自定义监控规则,实现对周期实例运行状态的监控。详情请参见:周期实例状态监控

    • 支持您创建自定义规则并指定规则对象实时计算任务,实现对实时计算任务运行状态的监控,详情请参见:实时计算任务运行状态监控

    • 支持您创建自定义规则并制定对象类型独享数据集成资源组独享调度资源组,实现对独享资源组使用情况的监控,详情请参见:独享资源使用监控

报警信息

您可以在报警信息界面查看监控报警信息,包括自定义规则报警信息、全局规则报警信息、智能基线报警信息等。

值班表

您可以在值班表界面自定义值班表信息,以便配置监控规则报警方式时可以选择发送报警信息给值班表对应的值班人。

说明

值班表支持设置主值班人和备值班人,默认报警给主值班人员,但是当报警两次后,第三次及之后的报警信息将同时报警给主、备值班人员。

自动运维

您可以根据业务需求,对独享资源组创建运维规则并关联已创建的监控规则,当关联的监控规则被触发时,系统将对运行在目标独享资源组上且满足过滤条件的任务自动执行运维动作,以达到自动运维的目的。

说明

目前只支持关联调度资源的监控规则。

任务运行状态监控

监控对象

您可以通过配置相应的监控规则(自定义规则、智能基线),对周期调度任务状态、周期任务自动调度产生的周期实例运行状态、实时计算任务运行状态、资源使用情况进行监控。

  • 周期任务状态监控

    DataWorks每晚根据周期任务生成第二天待自动调度运行的周期实例,所以为保障周期任务可以正常产生周期实例并且自动调度运行,DataWorks内置了全局报警规则(非空间级别报警规则)来对周期任务的状态进行监控,如有异常便会自动报警。报警包括孤立节点节点成环

    规则类型

    监控对象

    触发条件

    报警说明

    全局规则

    孤立节点:指任务展开父节点时,没有依赖任何父节点。

    孤立节点产生后会自动报警,如果收到孤立节点报警请及时处理。

    说明

    在DataWorks上,除了工作空间根节点外,自定义的每个周期调度的任务都需要有父节点依赖才可以被正常调度运行。所以孤立节点不会自动调度运行,如果该孤立节点下游依赖较多,则会造成严重的后果。

    • DataWorks每天定时9点、12点、16点对周期任务状态进行扫描,如有工作空间内存在孤立节点或节点成环等异常现象,系统将会自动发送报警。但扫描时间点前10分钟内产生异常不会纳入本次扫描,该异常将会被纳入下一个周期的任务状态扫描中进行扫描。

    • 全局规则为系统内置规则,您无须手动新建,默认以短信、邮件的方式报警给节点责任人。但您可以在规则管理页面中针对全局规则修改报警接收人。

    • 支持您在规则管理页面关闭全局报警规则。

    节点成环:指某任务为上游任务但又同时依赖了自己的下游任务,导致依赖关系成环。

    节点成环后会自动报警,如果收到节点成环报警请及时处理。

    说明

    节点成环后在自动调度时不会被调度调起。

  • 周期实例运行状态监控

    在DataWorks上,周期任务在周期性调度时将产生周期实例,DataWorks支持通过周期任务配置自定义监控规则,实现对周期实例运行状态的监控,包括指定对象的自定义规则监控报警和重要任务提前预警的基线预警功能。

    规则类型

    监控对象

    触发条件

    自定义规则

    指定任务节点基线工作空间业务流程上的任务。

    • 当任务运行完成未完成出错周期未完成超时自动重跑后仍出错时,将触发报警。

    • 当对象类型为工作空间时,除上述触发条件外,还包括任务转实例完成实例数量波动

    智能基线

    基线任务及影响基线上任务数据产出的上游任务会被纳入基线监控范围。

    说明
    • 您可以通过设置基线优先级来保障基线上的任务按时执行,数据顺利产出。

    • 当有任务需要重保并且上游任务依赖较为复杂时,可以使用基线功能将重要任务移到该基线上。

    • 基线报警

      当预测到基线上任务无法在承诺时间内完成时,系统将会根据定义的报警方式发送基线报警信息。详情请参见核心逻辑介绍:基线报警

    • 事件报警

      基线任务及其上游任务出错,或关键路径上的任务变慢时,会产生事件,并发送事件报警信息,详情请参见:事件管理

  • 实时计算任务运行状态监控

    • 规则类型:自定义规则。

    • 监控对象:实时计算任务。

    • 触发条件:当任务出错时触发报警。

  • 资源使用情况监控

    • 规则类型:自定义规则。

    • 监控对象:独享调度资源组、独享数据集成资源组。

    • 触发条件:

      • 资源组使用率大于某个数值并持续指定时长时触发报警。

      • 资源组上等待资源的实例数大于某个数值并持续指定时长时触发报警。

报警方式

配置监控规则后,平台一旦检测到规则被触发,将会根据您设置的报警方式,通过邮件、短信、电话或钉钉群消息等形式通知您,方便您及时发现并处理异常问题。

规则类型

报警方式

疲劳度控制

自定义规则、全局规则、智能基线

  • 报警给指定人员:支持邮件短信、电话报警给节点责任人、指定责任人或值班表中的排班等。其中,电话报警方式仅支持中国内地手机号的电话告警。

  • 报警给群组:支持钉钉群机器人WebHook

    说明
    • 仅DataWorks企业版支持使用WebHook功能。

    • WebHook功能仅支持推送报警信息至企业微信或飞书。

    • 如果您需要使用其他的WebHook,您需要先单击申请链接加入“阿里云大数据AI平台”交流群,再扫描下方二维码加入DataWorks产品钉钉交流群,进行售前售后咨询,咨询可直接@智能机器人,值班时间段内也可直接联系值班人员。技术支持二维码

支持最大报警次数最小报警间隔免打扰时间控制。

说明
  • 最大报警次数:报警的最大次数,超过设置的次数后,不再产生报警。

  • 最小报警间隔:两次报警之间的最小时间间隔。报警间隔期间,若任务恢复正常,剩余报警次数将不再触发报警。

  • 免打扰时间:设置了免打扰时间后,则在该时间段内系统将不会发送报警。

    例如,当设置了任务状态为超时出错未完成时触发报警,且该任务设置的免打扰时间为00:0008:00,则该时间段内将不会发出报警信息,如果到达8点,任务仍处于上述异常状态,将会发出报警信息。

资源自助运维

DataWorks的自动运维功能可以实现根据已设置好的监控规则和运维规则来自动执行任务的运维操作。

  • 触发条件:关联的监控规则被触发。

    说明
    • 目前支持对资源组利用率资源组上等待资源的实例数进行的监控。

    • 目前仅支持对独享调度资源组进行自助运维。

  • 定位目标实例:对满足实例类型实例调度周期实例优先级实例状态实例所在工作空间过滤条件的实例进行自助运维操作。

  • 运维动作:终止运行实例。

    说明

    支持单次最大终止2000个实例。

任务报警信息诊断

您可以通过任务DAG图或运行诊断页面,查看指定任务产生的报警信息。

  • 通过任务DAG图查看

    对于配置了监控报警且在当前时间点24小时内产生了报警的实例,您可以在周期实例页面,打开指定实例的DAG图,单击实例右上角红色告警标识(图中区域②),在弹出的监控详情窗口为您展示将当前任务纳入监控的规则或基线列表,以及各个规则或基线的触发情况,您可以单击右上角的查看报警信息跳转至报警信息页面查看报警详情,或单击规则/基线名称跳转至该规则的配置页面,查看规则配置详情。

    说明

    您可以勾选过去24h产生告警的节点(图中区域①)对周期实例进行过滤。

    报警信息

  • 通过任务运行诊断页面查看

    对于配置了监控报警的任务,您还可以在该任务运行诊断页面的提示信息区域,单击查看详情,在弹出的监控详情窗口为您展示将当前任务纳入监控的规则或基线列表,以及各个规则或基线的触发情况,您可以单击右上角的查看报警信息跳转至报警信息页面查看报警详情,或单击规则/基线名称跳转至该规则的配置页面,查看规则配置详情。运行诊断

  • 通过报警信息页面查看

    您也可以通过报警信息页面查看智能监控模块产生的所有报警信息,并通过报警详情查看报警的完整触发流程,包括触发该报警的监控规则、报警触发条件、您收到报警的原因等。详情请参见:报警信息