全部產品
Search
文件中心

DataWorks:智能診斷

更新時間:Jun 19, 2024

您可以使用智能診斷功能對任務進行全鏈路分析,當任務運行不符合預期時,您可以使用該功能快速定位問題。

功能概述

智能診斷功能可以基於以下維度對任務進行診斷分析:

  • 全鏈路分析

    • 檢查上遊任務運行情況:上遊任務運行失敗時,將阻塞當前任務的運行。智能診斷功能可以協助您迅速定位上遊任務運行失敗的原因。

    • 檢查是否已到達任務設定的定時已耗用時間。

      說明

      在資料開發模組中定義任務的調度屬性時,需要設定任務在調度環境中的預期已耗用時間,但任務實際已耗用時間可能由於上遊任務運行失敗等問題導致任務實際執行時間晚於任務定時時間。

    • 檢查調度資源使用方式:您可以查看資源的使用方式及任務等待資源時佔用該資源的工作清單。

    • 檢查任務執行情況:您可以查看任務的執行日誌、已關聯的資料品質規則執行詳情、任務的代碼詳情及診斷建議等資訊。

    說明
    • 調度任務運行需要滿足的條件包括:上遊任務運行成功、當前任務定時時間已到、調度資源充足、當前任務未運行等。詳情請參見:任務運行條件

    • 如果上遊任務為未運行狀態且上遊依賴層級較深時,建議您先通過DAG面板中的上遊分析功能,快速定位阻塞當前任務啟動並執行關鍵上遊任務,再通過智能診斷功能,診斷該關鍵任務未啟動並執行原因,提升營運效率。

  • 基本資料:支援您查看當前任務啟動並執行關鍵時間點。

  • 影響的基準:支援您查看將當前任務納入監控範圍的基準列表及基準運行情況。智能基準詳情請參見:智能基準概述

  • 歷史執行個體運行情況:支援您通過可視化圖表和列表方式查看當前任務近15天內的執行情況。

使用限制

僅DataWorks專業版及以上版本,支援使用運行診斷功能。您目前可以免費體驗,但建議您升級到專業版以擷取更多產品能力。版本升級詳情請參見:DataWorks各版本詳解

進入智能診斷

  1. 進入營運中心。

    1. 登入DataWorks控制台

    2. 在左側導覽列,單擊工作空間列表

    3. 選擇工作空間所在地區後,單擊相應工作空間操作列的更多表徵圖,選擇營運中心

  2. 進入營運中心後,您可以通過以下兩種方式進入智能診斷頁面。

    • 方法一:在左側導覽列,單擊周期任務營運手動任務營運,選擇周期執行個體補資料執行個體測試執行個體手動執行個體,通過以下方式進入相應執行個體的智能診斷頁面。

      • 單擊相應執行個體前的狀態表徵圖,進入執行個體的智能診斷頁面。狀態表徵圖

      • 在執行個體列表模式下,單擊相應執行個體操作列的去診斷。如果當前頁面非列表模式,您可單擊頁面中間的箭頭表徵圖返回列表模式。

      • 在DAG模式下,按右鍵相應執行個體的DAG圖,選擇菜單中的運行診斷。如果當前頁面非DAG圖模式,您可單擊相應執行個體操作列的DAG圖,開啟執行個體的DAG圖。

      • 在DAG模式下,單擊相應執行個體的DAG圖,在右下角的彈框中,單擊任務狀態右側的去診斷

    • 方法二:在左側導覽列,單擊智能診斷進入智能診斷頁面。

      說明

      智能診斷只支援通過執行個體ID定位具體執行個體,您可通過執行個體詳情頁擷取執行個體ID。

全鏈路診斷

DataWorks根據任務啟動並執行必要條件,將依次檢查上遊任務的運行狀態、當前任務設定的定時時間、調度資源的使用方式、當前任務的執行情況:

  • 上遊依賴

    智能診斷的上遊依賴頁面,為您展示當前任務的上遊任務運行情況,如果上遊任務未運行成功,將阻塞當前任務運行,您可以單擊上遊任務操作列的運行診斷,定位上遊任務運行失敗的原因。

    說明

    如果上遊任務為未運行狀態且上遊依賴層級較深時,建議您先通過DAG面板中的上遊分析功能,快速定位阻塞當前任務啟動並執行關鍵上遊任務,再通過智能診斷功能,診斷該關鍵任務未啟動並執行原因,提升營運效率。

    上遊依賴

  • 定時檢查

    定時檢查將為您檢查當前任務的定時時間是否已到。僅當上遊依賴檢查通過時,才會觸發該檢查。定時檢查

  • 調度資源

    智能診斷的調度資源頁面,為您展示資源使用趨勢。如果當前任務該檢查未通過,則表示當前任務運行時所使用的調度資源不足,任務將進入等待資源狀態,直到佔用該調度資源的任務執行結束,釋放資源後,才會啟動當前任務的運行。您可以根據資源使用趨勢,合理安排任務的定時時間,以錯峰運行。調度資源

    功能

    描述

    調度資源資訊

    為您展示前任務所使用的調度資源群組名稱、正在該資源群組上啟動並執行任務數、該資源群組上正在等待啟動並執行任務數。

    說明

    公用調度資源群組:每天0點~9點是DataWorks的任務高峰期,公用調度資源緊張,可能出現任務等待資源的情況。 您可以錯峰運行調度任務或者前往DataWorks控制台添加獨享資源群組或自訂資源群組來緩解資源緊張的情況。

    資源使用趨勢

    為您展示當前調度資源群組各時間段內的資源使用率,以及當前任務等待資源的耗時情況。

    佔用資源的任務

    為您展示當前任務等待資源的時間段內,佔用該調度資源群組的工作清單。

  • 任務執行

    任務執行為您展示當前任務的執行日誌、已關聯的資料品質規則執行詳情及代碼詳情等資訊,對於運行失敗的任務,智能診斷功能會根據日誌資訊,為您提供智能診斷建議,協助您快速擷取任務的出錯原因。任務運行

    重要

    僅MaxCompute任務支援查看診斷資訊MaxCompute作業列表。

    功能

    描述

    診斷資訊

    • 日誌診斷:擷取關鍵報錯資訊、報錯原因並給出診斷建議。

    • 計算資源診斷:若任務長時間處於等待引擎執行資源的狀態下,將在此處給出提示。

    日誌

    為您展示任務的詳細執行過程。

    MaxCompute

    為您展示MaxCompute作業列表及計算資源詳情。

    說明
    • 一個DataWorks執行個體會分成若干個MaxCompute Instance依次執行。

    • 當任務滿足運行條件後,DataWorks會根據任務類型將任務下發到對應的計算引擎上執行,當計算資源緊張時,可能會出現等待計算資源的情況,導致任務運行變慢。

    DQC

    如果任務關聯了資料品質規則,在任務運行時,將觸發資料品質規則運行,您可在此處查看資料品質規則詳細執行情況。

    代碼詳情

    為您展示當前任務的代碼詳情。

基本資料

您可以在基本資料頁面查看當前任務啟動並執行關鍵時間點和基本資料,相關屬性的詳細介紹請參見:調度配置基本資料

影響基準

您可以在影響基準頁面查看將當前任務納入監控範圍的基準列表及基準運行情況。智能基準詳情請參見:智能基準概述影響基準

歷史執行個體

您可以在歷史執行個體頁面查看如下資訊:

  • 當前任務各維度指標的變化趨勢:通過可視化圖表方式為您展示當前任務近15天內運行耗時開始已耗用時間等待調度資源耗時的變化趨勢。

  • 當前任務的歷史執行個體運行情況:通過列表方式為您展示當前任務的歷史執行個體運行詳情,包括執行個體開始已耗用時間、結束時間、運行時間長度、等待資源耗時等。支援您單擊操作列的運行診斷跳轉至對應執行個體的診斷詳情頁面。

歷史執行個體