全部產品
Search
文件中心

DataWorks:智能基準

更新時間:Dec 07, 2024

智能基準能夠及時捕捉導致基準上的任務無法按時完成的異常情況並提前預警,保障複雜依賴情境下重要資料能在預期時間內順利產出,協助您降低配置成本、避免無效警示、自動監控所有重要任務。

應用情境

  • 管理工作優先順序

    在任務數量越來越多,而資源有限的情況下,當發生資源搶佔時,您可以將重要任務添加至基準上,並為基準設定較高的優先順序,以保證重要的任務可以優先分配到資源。

  • 計算任務預計完成時間

    任務的運行受到資源和上遊任務運行情況的影響,您可以將任務添加至基準上,DataWorks將計算出該任務每天或每小時的預計完成時間,便於您查看任務的預計完成時間。

  • 保障任務在承諾時間前運行完成

    您可以將任務添加至基準上,並設定基準承諾時間,當系統預測到基準上任務無法在承諾時間前完成,或上遊任務出現錯誤或變慢的情況,將發送警示資訊,您可以根據警示資訊及時處理問題,保障任務在承諾時間前運行完成。

相關概念

  • 基準:使用者將重要任務加到基準上並設定承諾時間後,系統將根據任務運行情況計算基準任務的預計完成時間。當系統判斷基準任務可能無法在承諾時間前完成,系統將發出警示。

  • 承諾時間:任務運行成功的最晚時間點。即面向資料應用,任務承諾在該時間點前完成。如果希望為營運人員預留一定的時間處理異常,您可以為基準設定預警餘量,則系統會將承諾時間-預警餘量作為觸發警示的預警時間,判斷任務能否在預警時間前運行成功。

  • 預警時間:即承諾時間-預警餘量

  • 基準任務:被添加到基準上的任務。

  • 基準執行個體:系統使用基準執行個體計算任務每次啟動並執行預計完成時間。基準執行個體的狀態包括:安全、預警、破線。

    • 安全:預計完成時間<預警時間

    • 預警:預警時間<預計完成時間<承諾時間

    • 破線:預計完成時間>承諾時間

  • 關鍵路徑:影響基準任務的多條路徑中,運行耗時最長的路徑。

  • 事件:基準任務及其上遊任務出錯,或關鍵路徑上的任務變慢時,會產生事件。事件會影響基準任務的按時完成。

功能介紹

將重要任務添加到基準上後,DataWorks將根據基準的優先順序保障基準任務的資源,並根據基準任務的上下遊依賴關係確定監控範圍,根據該監控範圍內任務的運行情況觸發基準警示或事件警示。

根據基準任務K確定監控範圍。

  • 基準任務的上遊節點:影響任務K產出的節點均被納入監控範圍:image

  • 基準任務的下遊節點:不在監控範圍:image

  • 關鍵路徑:影響任務K的所有路徑中耗時最長的路徑:image

  1. 建立一條基準:

    • 指定添加到基準的任務K。

    • 設定基準優先順序及警示策略參數。

  2. 根據監控範圍內任務的實際運行情況觸發基準警示或事件警示。

如上圖所示,智能基準的主要功能如下。

  1. 建立並管理基準

    您可以在基準管理頁面建立和管理基準:

    • 將需要重保的任務移動至基準,設定基準承諾時間等基本資料,並設定基準的警示策略(警示發送的方式、接收人等),後續會依據基準的設定對需要監控的任務進行監控預警。

    • 您也可以指定基準的優先順序,基準優先順序可以決定任務啟動並執行優先程度,基準優先順序越高,基準上任務的優先順序也會越高。優先順序高的任務,在調度資源緊張的情況下,將優先獲得調度資源。

      說明
      • 該優先順序在滿足以下兩個條件的情況下將映射為MaxCompute計算任務的優先順序。

        • MaxCompute Project開啟優先順序功能。

        • MaxCompute Project使用訂用帳戶計算資源。

      • MaxCompute作業優先順序=9-DataWorks基準優先順序。

    基準建立及管理的操作詳情請參見基準管理

  2. 確定監控範圍

    DataWorks會結合基準上任務的依賴關係確定需要監控的範圍,將可能影響基準資料產出的所有任務都進行監控。詳情請參見下文的核心邏輯介紹:監控範圍

  3. 觸發警示並發送警示資訊

    • 基準警示

      DataWorks會根據基準配置的警示策略,結合實際監控範圍內任務的運行情況,自動觸發警示並發送給警示接收人。當預測到基準上任務無法在承諾時間內完成時,系統將會根據定義的警示方式發送基準警示資訊,詳情請參見核心邏輯介紹:基準警示

    • 事件警示

      監控範圍確定後,當基準任務及其上遊任務出錯,或關鍵路徑上的任務變慢時,將會產生相應的事件,並發送事件警示資訊,您可以在DataWorks的事件管理頁面查看當前已存在的事件列表,詳情請參見事件管理

費用說明

  • 基準執行個體個數:所有開啟狀態的基準都會產生基準執行個體,DataWorks根據當天23:59產生的基準執行個體數量收取費用。詳情請參見:基準執行個體計費說明

  • 警示簡訊和警示電話個數:基準警示將產生簡訊和電話費用,詳情請參見:警示簡訊與警示電話計費

使用限制

僅DataWorks標準版及以上版本支援使用智能基準功能。低版本使用者請先升級再使用該功能,詳情請參見:DataWorks各版本詳解

核心邏輯介紹:監控範圍

基準建立完成後,某個任務被移動至基準後,智能基準不會監控基準上任務的所有上下遊任務,對該任務相關的上下遊監控範圍如下:

  • 上遊任務:影響基準上任務資料產出的上遊任務會被納入基準監控範圍。

  • 下遊任務:下遊任務不會被納入基準監控範圍,即基準任務的下遊任務及上遊任務的其他分支下遊任務運行出錯時不會觸發警示。

如上圖所示,假設整個DataWorks有6個任務節點,任務D和任務E是基準上的任務,則影響任務D和任務E資料產出的上遊任務,即上圖中的任務A、任務B、任務D和任務E,均會被納入監控範圍,監控範圍內的任務出現異常(出錯或變慢),均會被智能基準察覺,而任務C和任務F不受智能基準所監控。

核心邏輯介紹:基準警示

您可以將重要任務添加到基準上,設定基準承諾時間預警餘量後:

  • DataWorks會將承諾時間-預警餘量作為預警時間,結合監控範圍內任務的歷史平均運行時間長度,基準執行個體依次推算得出監控範圍內各任務的最晚完成時間和最晚開始已耗用時間。

  • 任務實際運行時,當監控範圍內的任務的運行狀態可能會導致基準任務無法在預警時間前完成時,DataWorks會觸發基準警示。

核心邏輯介紹:事件警示

監控範圍確定後,當監控範圍內的任務出現異常時,智能監控會建置事件,並基於對該事件的分析觸發警示。任務的異常包括:

  • 出錯:任務運行失敗。

  • 變慢:任務本次已耗用時間相比過去一段時間內的平均已耗用時間明顯變長。

說明

如果一個任務先變慢、再出錯,會產生兩個事件。

您可以進入事件管理頁面查看產生的事件詳情。

核心邏輯介紹:關鍵路徑與關鍵執行個體

基準上需要保障的任務,其依賴關係可能錯綜複雜,DataWorks提供甘特圖功能協助您快速定位阻塞基準上資料產出的關鍵路徑與關鍵執行個體,其中影響基準任務產出的多條路徑中,耗時最長的路徑為基準關鍵路徑。

範例

  • 情境:當前事件為6:40,任務F仍在運行。

  • 基準預警

    XX年XX月XX日 XX:XX:XX

    基準XX預警,業務時間XX,餘量:-10min ……

  • 事件警示

    XX年XX月XX日 XX:XX:XX

    事件體型,業務時間XX,任務XX,狀態:延遲……

甘特圖用於反映目標任務的關鍵執行路徑。以上述案例為例,關鍵路徑展示及異常捕獲時間如下所示:甘特圖