全部產品
Search
文件中心

DataWorks:營運中心概述

更新時間:Jun 19, 2024

營運中心包括營運大屏、即時任務營運、周期任務營運、手動任務營運、智能監控、智能診斷、資源營運和引擎營運功能模組,為您提供任務操作與狀態、引擎、資源等多方位的營運能力。

營運中心功能模組

當您在DataStudio中完成節點開發,並提交和發布至生產環境後,即可在營運中心對任務進行營運操作,包括周期調度任務的自動調度與手動運行、任務運行詳情查看、任務運行狀態監控、任務運行使用的資源監控與自動營運;即時任務的執行管控、運行詳情查看與監控警示配置;調度任務營運大屏以及Data Integration離線同步與即時同步任務營運專頁,針對任務營運關鍵計量的查看。營運中心邏輯圖

下表為營運中心各模組功能使用的簡單說明:

模組

描述

環境支援情況

查看營運大屏

營運大屏以報表的形式為您展示任務的啟動並執行重要指標。包括調度任務的關鍵營運指標統計與Data Integration離線同步與即時同步任務營運專頁。

開發環境營運中心無此模組

即時同步任務運行與管理

在即時任務營運介面,您可以針對即時任務進行啟動、停止、下線與監控警示相關操作。

-

查看並管理周期任務

周期任務營運為您展示任務提交到調度系統後的調度工作清單與調度環境產生的周期執行個體。周期工作面板展示當前所有的調度節點,您可以在周期工作面板修改周期調度任務使用的資源群組、責任人等資訊。

DataWorks每晚會根據周期任務自動產生第二天待啟動並執行周期執行個體,同時支援您手動觸發周期任務,分別產生補資料執行個體測試執行個體,您可以通過產生的執行個體查看任務的運行詳情。

開發環境營運中心無法自動調度組建循環執行個體。

手動任務營運

手動任務營運為您展示任務提交到調度系統後的手動工作清單與經過手動觸發運行後產生的手動執行個體手動任務面板展示當前所有的手動觸發式任務,您可以在手動工作面板修改任務執行時使用的調度資源群組、責任人等資訊。

在手動工作面板中,選擇類型為手動商務程序,支援您手動觸發任務運行並且產生手動執行個體,您可以查看產生的手動執行個體的運行詳情。

-

智能監控

  • 監控對象:周期任務、Realtime Compute任務、資源水位。

    監控支援為自動調度的周期任務設定監控警示,監控在自動調度情境下的周期執行個體運行情況,支援獨享資源群組水位監控及Realtime Compute任務運行狀態監控。

  • 監控方式:自訂規則、智能基準

    支援針對指定對象(節點、商務程序、工作空間、基準、Realtime Compute任務、獨享調度資源群組、獨享Data Integration資源群組)的監控警示,同時也支援針對整個“業務線”的基準預警,並通過您配置的警示方式來發送相應的警示資訊。

  • 警示方式:支援簡訊、郵件、DingTalk群和webhook,已支援設定值班表,將對應時間的警示訊息警示給對應的值班人員。

    說明

    可使用簡訊警示的地區為:新加坡、馬來西亞(吉隆坡)、德國(法蘭克福)。

開發環境營運中心無此模組

資源營運

資源營運主要對獨享調度資源群組獨享Data Integration資源群組的使用方式(使用率、運行中工作清單、排隊工作清單)進行監控和自動營運,支援查看資源群組使用趨勢。

-

引擎營運

目前支援對EMR引擎的營運。在DataWorks執行個體任務中,E-MapReduce計算引擎任務會被分為若干作業有序執行,您可以使用DataWorks的引擎營運功能,查看各個E-MapReduce作業的詳細資料,及時尋找並清理運行有誤的作業,避免該類作業阻塞下遊任務,影響執行個體任務的正常運行。

開發環境營運中心無此模組

智能診斷

DataWorks營運中心為您提供運行診斷功能,協助您掌握任務啟動並執行全鏈路資訊,以便迅速定位問題。

開發環境營運中心無此模組

同時,需關注以下注意事項:

  • 在標準模式工作空間下,您可以通過介面左上方切換進入到開發營運中心和生產營運中心。

  • 僅生產環境營運中心支援自動調度。即只有在生產環境營運中心,您才能在周期執行個體面板中看到自動調度執行的周期執行個體。

生產任務運行邏輯

生產任務包括周期任務、手動任務和即時任務。營運邏輯

  • 周期任務營運

    當節點被提交發布至營運中心後,您可以在營運中心的周期任務中看到該節點(周期工作清單中的任務為所有周期性調度的任務),DataWorks每晚會產生第二天待啟動並執行周期執行個體,同時支援您手動觸發周期任務,分別產生補資料執行個體測試執行個體

    執行個體類型

    應用情境

    與周期任務的關係

    (對應執行個體如何產生)

    執行個體觸發方式

    (對應執行個體如何觸發執行)

    任務運行條件

    周期執行個體

    周期性自動化進行ETL操作。

    平台每晚根據某一時間點周期任務快照資訊自動產生第二天待啟動並執行周期執行個體。

    說明

    開發環境營運中心不會自動調度組建循環執行個體。

    平台自動觸發周期執行個體執行。

    以周期執行個體上的任務為例,任務開始運行前需滿足以下條件:

    • 依賴的所有父節點執行個體狀態都為成功狀態。

    • 已到達任務節點設定的任務定時已耗用時間。

    • 調度資源充足。

    • 本任務不是凍結狀態。

    運行流程圖

    說明

    營運中心中,不同的執行個體顏色代表執行個體處於不同的狀態中,執行個體運行狀態示意詳情可參考:附錄:執行個體狀態

    補資料執行個體

    需要對當前節點及下遊節點執行補過去某一時間段或未來某段時間的資料的操作,即需要對歷史或未來時間段的資料進行ETL操作。

    人為針對當前周期任務手動觸發補資料操作,並產生補資料執行個體。

    人為針對周期任務進行補資料操作後,會產生補資料執行個體,並同時觸發補資料執行個體執行。

    執行測試並查看測試執行個體

    需要對當前周期任務進行測試,觀察執行結果是否符合預期。

    說明

    測試執行個體的運行其實際上也在真實執行代碼邏輯的。

    人為針對當前周期任務手動觸發測試操作,並產生測試執行個體。

    人為針對周期任務的進行測試操作後,會產生測試執行個體,並且同時觸發測試執行個體執行。

    您可以在周期任務營運下的周期執行個體面板、補資料執行個體面板、測試執行個體面板中查看各類執行個體的運行情況,根據執行個體的狀態瞭解資料產出是否異常,不同執行個體狀態的詳情請參見附錄:執行個體狀態

    說明
    • 周期執行個體根據周期任務每晚(23:30~24:00)定時自動產生,測試執行個體、補資料執行個體根據補資料和測試操作時間點的周期任務手動觸發,因此補資料和測試會以最新的任務配置情況產生對應的執行個體。

    • 建立節點發布生產環境後,當晚會全量產生第二天待啟動並執行周期執行個體,但建立節點發布時,您可以通過節點調度配置,選擇執行個體產生方式來控制是否立即產生當天的周期執行個體,詳情請參考時間屬性配置說明

  • 手動任務營運

    當手動商務程序被提交發布至營運中心後,您可以在營運中心 > 手動任務營運 > 手動任務頁面中看到該節點,當您需要運行該手動商務程序時,可以在手動工作面板對該任務執行運行操作,手動觸發任務運行後,會產生手動執行個體,您可以在手動執行個體頁面查看該執行個體執行詳情。

  • 即時任務營運

    當即時任務被提交發布至營運中心後,您可以在營運中心 > 即時任務營運頁面對即時任務進行啟動、下線及警示配置等相關操作,即時任務營運分為Realtime Compute任務和即時同步任務,您可以分別在即時任務營運下的Realtime Compute任務、即時同步任務頁面對其進行管理。詳情請參見:Realtime Compute任務運行與管理即時同步任務運行與管理

任務運行狀態監控:智能監控

您可以使用智能監控功能監控周期調度任務狀態、周期任務自動調度產生的周期執行個體運行狀態、Realtime Compute任務運行狀態,配置相應監控規則(自訂規則、智能基準)後,平台一旦檢測到規則被觸發,將會根據您設定的自訂規則及智能基準的警示方式,通過郵件、簡訊或DingTalk群訊息等形式通知您,方便您及時發現並處理異常問題。

  • 周期任務狀態監控

    DataWorks每晚根據周期任務產生第二天待自動調度啟動並執行周期執行個體,所以為保障周期任務可以正常產生周期執行個體並且自動調度運行,DataWorks內建了警示規則來對周期任務進行定期監控掃描,如有異常便會自動警示。

    系統內建全域警示規則(非空間層級警示規則)對周期任務的狀態進行監控。警示包括孤立節點節點成環

    說明
    • DataWorks每天定時9點、12點、16點對周期任務狀態進行掃描,如有異常將會自動發送警示。但掃描時間點前10分鐘內產生異常不會納入本次掃描,該異常將會被納入下一個周期的任務狀態掃描中進行掃描。

    • 全域規則為系統內建規則,您無須手動建立,預設以簡訊、郵件的方式警示給節點責任人。但您可以在規則管理頁面中針對全域規則修改警示接收人。

    • 節點孤立警示

      孤立節點指節點在周期任務或周期執行個體中展開父節點時,沒有依賴任何父節點,這類型節點在自動調度時不會被調度調起,所以孤立節點不會自動調度運行,如果該孤立節點下遊依賴較多,則會造成嚴重的後果。孤立節點產生後會自動警示,如果收到孤立節點警示請及時處理。

      說明

      在DataWorks上,除了工作空間根節點外,自訂的每個周期調度的節點都需要有父節點依賴才可以被正常調度運行。

    • 節點成環警示

      節點成環指的是某節點為上遊節點但又同時依賴了自己的下遊節點。導致依賴關係成環,這類型節點在自動調度時不會被調度調起,節點成環後會自動警示,如果收到節點成環警示請及時處理。

  • 周期執行個體運行狀態監控

    在DataWorks上,周期任務周期性調度時將產生周期執行個體,DataWorks支援通過周期任務自訂規則監控配置,實現對周期執行個體運行狀態的監控,包括指定對象的自訂規則監控警示和重要任務提前預警的基準預警功能。

    • 自訂規則警示

      通過建立自訂規則實現對指定對象的警示。

      您可以對指定對象(任務節點、基準、工作空間、商務程序)上節點的狀態(完成、未完成、出錯、周期未完成、逾時、自動重跑後仍出錯等及Realtime Compute任務的出錯)設定監控警示。支援簡訊、郵件、DingTalk機器人和webhook的方式發送警示給責任人(節點責任人、指定責任人或值班表中的排班等),詳情請參考規則管理

    • 基準預警

      通過設定基準優先順序來保障基準上的任務按時執行,資料順利產出。

      當有任務需要重保並且上遊任務依賴較為複雜時,可以使用基準功能將重要任務移到該基準上。當影響基準在預期時間內資料產出的情況發生時,基準將為您快速定位影響當前節點資料產出的關鍵路徑,找到阻塞任務(即影響保障資料產出的關鍵執行個體)並第一時間發出警示,保障重要資料在預期時間內順利完成。當影響基準的任務(基準上的任務及其上遊任務)出錯或者變慢,您將會收到相應的警示。其警示分為基準預警與事件警示。支援簡訊、郵件、DingTalk機器人和webhook的方式發送警示給責任人(節點責任人、指定責任人或值班表中的排班等),關於基準使用詳情請參見:基準管理

      • 基準預警

        當基準根據基準的承諾時間、預警餘量等預測無法保障基準上的任務在預警時間內完成時,便會觸發基準提前預警功能。

      • 事件警示

        當影響基準上資料產出的任務(基準上的任務及其上遊任務)出錯或者變慢時,將會收到相應的事件警示。

    • Realtime Compute任務運行狀態監控

      您可以通過自訂規則,對Realtime Compute任務的運行狀態進行監控,當任務節點出錯時通過配置的簡訊、郵件、DingTalk機器人和webhook等方式發送警示給責任人(節點責任人、指定責任人和值班表中的排班等)。詳情請參考規則管理

任務運行資源監控與營運:自動營運

您可以使用智能監控 > 規則管理中的自訂規則,來對獨享資源群組使用率及獨享資源群組上等待的執行個體數設定監控警示,並且支援結合自動營運功能通過簡訊、郵件、DingTalk機器人等方式發送警示給責任人(節點責任人、指定責任人)。關於自訂規則使用詳情請參考規則管理

自動營運功能支援通過自訂規則中的獨享資源群組監控規則,並在限定條件下對獨享資源群組進行營運操作來保障重要任務的順利運行,比如終止運行中的執行個體。詳情請參考自動營運

任務運行問題定位:運行診斷

  • 調度任務啟動並執行必要條件

    節點發布至營運中心後,任務開始運行前需滿足以下條件。

    說明

    當任務未運行時您可以使用智能診斷功能快速進行對問題進行定位與排查,詳情可參考文檔:智能診斷

    1. 依賴的所有父節點執行個體狀態都為成功狀態

      配置節點依賴關係可以保障節點在運行時能取到正確的資料(讀取上遊表資料時,上遊表的最新資料已產生),避免當前節點讀取資料時,上遊表資料還未產出,導致當前節點讀取資料出現問題,所以,當節點存在上遊節點依賴時,當前節點的執行,需要等待所依賴的父節點都執行成功。詳情請參見:調度依賴配置指引

      說明
      • 父節點非成功狀態包括父節點未運行、父節點狀態失敗、父節點被凍結(暫停)、父節點處於運行中。

      • 凍結狀態的節點將阻塞下遊節點執行。

    2. 已到達任務節點設定的定時已耗用時間

      資料開發中定義節點的調度屬性時,需要為節點設定調度環境下節點啟動並執行“理想時間”。

      • 噹噹前節點依賴的所有父節點都在當前節點設定的定時已耗用時間點前執行成功,那麼當父節點全都執行成功後,當前節點將進入等待狀態,待到達任務節點的定時時間後啟動運行。

      • 噹噹前節點依賴的所有父節點在當前節點設定的定時已耗用時間點後執行成功,那麼當父節點全都執行成功且有充足的調度資源時,當前節點將立即運行起來。

    3. 調度資源充足

      資料開發中定義節點的調度屬性時,您可以設定調度環境下節點運行所使用的獨享調度資源群組。同時,您也可以在營運中心的周期任務頁面進行修改。

      噹噹前節點所有的父節點運行成功,並且已經到達節點設定的定時已耗用時間時,如果節點指定的調度資源群組無可用資源時,節點進入等待資源的狀態,直到佔用該調度資源的任務執行成功,將資源釋放後啟動運行。

    4. 本任務不是凍結狀態

      如果當前節點處於凍結狀態,那麼節點滿足上述三個條件後仍不會運行,並導致依賴該周期執行個體的下遊執行個體無法運行。如果您需要解凍該節點,詳情請參見:任務凍結與解凍

  • 任務運行失敗原因診斷

    您可以使用智能診斷功能和DAG的上遊分析功能對未運行任務進行快速診斷。

    其中,智能診斷功能支援對未開始啟動並執行任務進行任務啟動並執行必要條件檢查,支援對運行失敗的任務進行原因分析並給出診斷建議等。

    智能診斷能力概覽:

    • 任務啟動並執行全鏈路診斷。包括父節點運行情況檢查、當前節點設定的定時時間檢查、調度資源詳情(任務使用的調度資源群組使用趨勢與任務排隊數,當前任務等待資源時哪些任務佔用資源)、任務執行詳情(任務出錯時提供原因分析與診斷建議)。

    • 當前執行個體的基本資料與執行個體啟動並執行關鍵時間點(上遊節點運行完成時間、當前節點設定的定時時間、開始等待調度資源時間、開始已耗用時間、運行成功時間)。

    • 當前節點影響的基準及其當Apsara Infrastructure Management Framework線執行個體運行情況。

    • 當前節點平均已耗用時間、開始執行時間、等待資源消耗時間趨勢圖及當前節點運行歷史的執行個體列表。

    關於智能診斷功能使用詳情請參見:智能診斷

任務產出的表資料監控:資料品質

您可以使用資料品質功能對周期執行個體、補資料執行個體、測試執行個體產出的表資料進行監控。

周期任務在生產環境通過自動調度或手動觸發來運行,分別產生周期執行個體、補資料執行個體和測試執行個體,您可以對周期任務設定資料品質規則來監控周期任務產生的執行個體(周期執行個體補資料執行個體測試執行個體)運行後所產出的表資料是否符合預期。

資料品質通過表配置的分區運算式來匹配節點產出的表分區,資料品質規則關聯產出該表資料的調度節點,當節點運行後(營運中心中通過測試執行個體,補資料執行個體,周期執行個體的運行及重跑操作產出表資料),會觸發該資料品質規則校正,您可以設定規則的強弱來控制節點是否失敗退出,從而避免髒資料影響擴大,同時,您也可以通過訂閱規則來第一時間接收節點產出表資料異常的警示。詳情請參考文檔資料品質

附錄:執行個體狀態

營運中心按照不同的顏色與標識來辨識任務正處於運行流程中的哪個階段,不同的執行個體顏色與標識代表執行個體處於不同的狀態下。不同的執行個體顏色與標識所對應的任務狀態如下所示。關於任務運行必要條件詳情請參見:任務運行問題定位:運行診斷

序號

狀態類型

狀態標識

運行流程圖

1

運行成功狀態

運行成功

運行流程圖

2

未運行狀態

未運行

3

運行失敗狀態

運行失敗

4

執行狀態

正在運行

5

等待狀態

等待狀態

6

暫停/凍結狀態

暫停凍結狀態