全部產品
Search
文件中心

DataWorks:智能監控

更新時間:Nov 15, 2024

本文為您匯總智能監控的相關問題。

在營運中心設定警示後收不到,該如何排查?

此情境下,我們需要先確認是否有真實觸發警示,在真實觸發警示但未收到的情況下,我們根據不同的警示類別,將其再細分為兩個情境:配置簡訊和郵箱警示但收不到,該如何排查,和配置DingTalk群警示後但收不到警示資訊,該如何排查,以下為具體排查思路:

  • 確認是否有成功觸發警示?

    • 如果是調度任務警示,您可以在周期執行個體面板確認執行個體運行狀態,是否可以正常觸發警示,關於各個規則引發條件可參考以下文檔:

      自訂規則警示觸發條件可參考:規則管理,基準警示觸發條件可參考文檔:智能監控

    • 如果是即時同步任務警示,您可以在營運中心介面左側功能表列即時任務營運中選擇即時同步任務,查看即時同步任務運行詳情。

  • 沒有觸發警示

    任務未完成時,系統會掃描前100個未完成的任務,如果凍結的任務過多,則會掃描不到,因此也就無法觸發警示。

  • 有真實觸發警示,但配置的簡訊和郵箱未收到警示,該如何排查?

    此情境下您需要先瞭解,如何在DataWorks配置警示連絡人的手機、郵箱。

    簡訊和郵箱警示,將通過DataWorks控制台更多 > 警示連絡人頁面所設定的個人資訊來警示。主要配置步驟如下圖所示:

    配置警示人資訊如果警示配置後未收到,您可以在警示連絡人處確認以下幾點:

    • 已經在此處配置好個人資訊。

    • 新增或變更個人資訊後,已經在手機、郵箱啟用個人手機、郵箱。

    說明
    • 阿里雲主帳號及有AliyunDataWorksFullAccess許可權的子帳號,可以為其他RAM子帳號設定個人資訊。配置詳情可參考文檔:查看和設定警示連絡人

    • 如果未正確設定警示接收人的手機或郵箱資訊,系統會向基本接收管理中產品的欠費、停服、即將釋放等資訊的訊息接收人發送警示資訊,導致警示接收人未收到警示簡訊或郵件。

  • 有真實觸發警示,但配置DingTalk群接收警示未收到警示,該如何排查?

    請確認以下幾點:

    • 1. 規則配置頁面輸入的DingTalk機器人地址是否正確?

      • 調度任務監控(基準監控與自訂規則監控)配置的DingTalk機器人WebHook地址是否正確,是否多了空格。

      • 即時同步警示配置需要配置的是DingTalk群機器人TOKEN資訊。即時同步警示

    • 2. DingTalk群機器人配置是否正確?

      為保障DingTalk群可以正常接收到警示資訊,DingTalk群機器人配置中、安全設定僅支援添加自訂關鍵詞,並且自訂關鍵詞需要包含DataWorks(注意區分大小寫),關於DingTalk機器人配置詳情可參考文檔規則管理

      DingTalk機器人配置

不需要接收任務的警示,該如何處理?

一條基準納入監控後,該基準上的任務及基準上任務的上遊的所有任務都會被監控。如果基準上的任務或節點的上遊節點影響到基準上受保障的任務的資料產出,則智能監控會產生一個事件,事件預設警示給任務責任人。詳情請參見智能監控1

如上圖所示,假設整個DataWorks只有6個任務節點,任務D和任務E屬於受保障基準上的節點。任務D和任務E及它們所有的上遊節點,均會被納入監控範圍。即上圖中的任務A、任務B、任務D和任務E出現異常(出錯或變慢),也會被智能監控察覺,而任務C和任務F不受監控。

  • 如果任務D和任務E本身不需要接收警示,請聯絡基準責任人,從基準上移除任務D和任務E。

  • 任務A和任務B是受保障的任務D和任務E的上遊任務,雖然不在基準上,但會影響基準資料的產出。一旦任務A和任務B出錯或變慢,便會產生事件警示,預設警示給任務責任人。

    如果任務A和任務B無需接收警示,請聯絡任務責任人刪除任務D和任務E對它們的依賴。

為什麼在基準執行個體頁面會顯示基準狀態為空白基準?

以下幾個將會導致空基準產生:

  • 情境一:節點只能存在一條基準上。當任務從一條基準添加到另一條基準,實際上是節點在基準上的遷移,當一條基準上一個任務都沒有的時候(原基準上的任務全都被移走),這條開啟狀態的基準會成為空白基準。

  • 情境二:基準建立當天會顯示空基準,基準開啟第二天正常產生基準執行個體。

  • 情境三:小時基準對應的執行個體周期填寫錯誤。

    說明

    假設小時任務定時每天6點,18點執行,那麼此任務周期數為2,在小時基準配置時,任務第一個周期為6點,第二個周期為18點。

為什麼開啟的基準破線未警示?

基準開關開啟的基準監控是針對任務的。如果所有的任務都正常,即使破線也不會警示,因為所有的任務都運行正常,無法判斷出哪個任務出錯。

任務都正常但基準仍破線的原因,通常有以下原因:

  • 設定的基準時間不合理。

  • 任務的依賴有問題,即使基準破線也不警示。

變慢的任務是否可以不警示?

任務變慢警示一定要滿足以下兩個條件:

  • 任務處於重要的基準上遊。

  • 任務和往常比較,確實存在變慢的情況。

您可以在事件管理頁面查看下遊基準資訊,並和下遊監控任務的基準方確認任務變慢的影響程度。

  • 如果任務變慢的影響不大,可以選擇忽略。

  • 如果確認要為下遊方負責,請維護好任務。

為什麼未收到出錯任務的警示?

並不是所有任務出錯後都會警示,任務需要滿足下述條件之一,才會在出錯後進行警示:

  • 處於某條開啟狀態的基準的上遊。關於基準警示的說明請參考文檔:基準管理

  • 設定了相關的自訂提醒規則。關於自訂警示規則設定,詳情請參考文檔:規則管理

如何處理夜間收到警示的情況?

  1. 進入營運中心頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 營運中心,在下拉框中選擇對應工作空間後單擊進入營運中心

  2. 在左側導覽列,單擊智能基準,然後切換至事件管理頁簽。

  3. 事件管理頁面關閉警示。您可以通過以下兩種方式關閉夜間的警示:

    • 處理警示事件,在處理期間會暫停事件警示:

      1. 單擊相應事件後的處理

      2. 處理事件對話方塊中,設定預計處理時間

      3. 單擊確定

        說明

        事件的處理操作記錄會被記錄,並且在處理期間暫停警示。

    • 忽略警示事件,永久關閉事件警示:

      1. 單擊相應事件後的忽略

      2. 忽略事件對話方塊中,單擊確定

        說明

        事件的忽略操作記錄會被記錄,忽略後會永久關閉事件警示。