本文为您汇总智能监控的相关问题。
在运维中心设置报警后收不到,该如何排查?
此场景下,我们需要先确认是否有真实触发报警,在真实触发报警但未收到的情况下,我们根据不同的报警类别,将其再细分为两个场景:配置短信和邮箱报警但收不到,该如何排查,和配置钉钉群报警后但收不到报警信息,该如何排查,以下为具体排查思路:
确认是否有成功触发报警?
没有触发报警
任务未完成时,系统会扫描前100个未完成的任务,如果冻结的任务过多,则会扫描不到,因此也就无法触发报警。
有真实触发报警,但配置的短信和邮箱未收到报警,该如何排查?
此场景下您需要先了解,如何在DataWorks配置报警联系人的手机、邮箱。
短信和邮箱报警,将通过DataWorks控制台
页面所设置的个人信息来报警。主要配置步骤如下图所示:如果报警配置后未收到,您可以在报警联系人处确认以下几点:
已经在此处配置好个人信息。
新增或变更个人信息后,已经在手机、邮箱激活个人手机、邮箱。
说明阿里云主账号及有AliyunDataWorksFullAccess权限的子账号,可以为其他RAM子账号设置个人信息。配置详情可参考文档:查看和设置报警联系人
如果未正确设置报警接收人的手机或邮箱信息,系统会向基本接收管理中产品的欠费、停服、即将释放等信息的消息接收人发送告警信息,导致报警接收人未收到告警短信或邮件。
有真实触发报警,但配置钉钉群接收报警未收到报警,该如何排查?
请确认以下几点:
1. 规则配置页面输入的钉钉机器人地址是否正确?
调度任务监控(基线监控与自定义规则监控)配置的钉钉机器人WebHook地址是否正确,是否多了空格。
实时同步报警配置需要配置的是钉钉群机器人TOKEN信息。
2. 钉钉群机器人配置是否正确?
为保障钉钉群可以正常接收到报警信息,钉钉群机器人配置中、安全设置仅支持添加自定义关键词,并且自定义关键词需要包含DataWorks(注意区分大小写),关于钉钉机器人配置详情可参考文档规则管理。
不需要接收任务的报警,该如何处理?
一条基线纳入监控后,该基线上的任务及基线上任务的上游的所有任务都会被监控。如果基线上的任务或节点的上游节点影响到基线上受保障的任务的数据产出,则智能监控会生成一个事件,事件默认报警给任务责任人。详情请参见智能监控。
如上图所示,假设整个DataWorks只有6个任务节点,任务D和任务E属于受保障基线上的节点。任务D和任务E及它们所有的上游节点,均会被纳入监控范围。即上图中的任务A、任务B、任务D和任务E出现异常(出错或变慢),也会被智能监控察觉,而任务C和任务F不受监控。
如果任务D和任务E本身不需要接收报警,请联系基线责任人,从基线上移除任务D和任务E。
任务A和任务B是受保障的任务D和任务E的上游任务,虽然不在基线上,但会影响基线数据的产出。一旦任务A和任务B出错或变慢,便会产生事件报警,默认报警给任务责任人。
如果任务A和任务B无需接收报警,请联系任务责任人删除任务D和任务E对它们的依赖。
为什么在基线实例页面会显示基线状态为空基线?
以下几个将会导致空基线产生:
场景一:节点只能存在一条基线上。当任务从一条基线添加到另一条基线,实际上是节点在基线上的迁移,当一条基线上一个任务都没有的时候(原基线上的任务全都被移走),这条开启状态的基线会成为空基线。
场景二:基线新建当天会显示空基线,基线开启第二天正常产生基线实例。
场景三:小时基线对应的实例周期填写错误。
说明假设小时任务定时每天6点、18点执行,那么此任务周期数为2,在小时基线配置时,任务第一个周期为6点,第二个周期为18点。
为什么开启的基线破线未报警?
基线开关开启的基线监控是针对任务的。如果所有的任务都正常,即使破线也不会报警,因为所有的任务都运行正常,无法判断出哪个任务出错。
任务都正常但基线仍破线的原因,通常有以下原因:
设置的基线时间不合理。
任务的依赖有问题,即使基线破线也不报警。
变慢的任务是否可以不报警?
任务变慢报警一定要满足以下两个条件:
任务处于重要的基线上游。
任务和往常比较,确实存在变慢的情况。
您可以在事件管理页面查看下游基线信息,并和下游监控任务的基线方确认任务变慢的影响程度。
如果任务变慢的影响不大,可以选择忽略。
如果确认要为下游方负责,请维护好任务。
为什么未收到出错任务的报警?
如何处理夜间收到报警的情况?
进入运维中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入运维中心。
在左侧导航栏,单击智能基线,然后切换至事件管理页签。
在事件管理页面关闭报警。您可以通过以下两种方式关闭夜间的报警:
处理报警事件,在处理期间会暂停事件报警:
单击相应事件后的处理。
在处理事件对话框中,设置预计处理时间。
单击确定。
说明事件的处理操作记录会被记录,并且在处理期间暂停报警。
忽略报警事件,永久关闭事件报警:
单击相应事件后的忽略。
在忽略事件对话框中,单击确定。
说明事件的忽略操作记录会被记录,忽略后会永久关闭事件报警。