您可在營運中心查看發布至生產環境的任務,並執行測試、補資料等相關營運操作。本文以周期調度任務的營運為例,通過確認調度任務的配置是否符合預期、使用補資料計算歷史時間段的資料、配置任務的智能監控規則,保障任務後續可以正常調度,為您介紹營運中心模組的基本使用。
前提條件
根據資料開發:開發人員文檔建立result_table
節點並完成發布。
本文均以result_table
節點示範相關營運操作,實際執行時,也可基於您的具體任務進行營運。
背景資訊
DataWorks營運中心支援對周期任務、手動任務、即時同步任務等多種類型任務進行營運管理,並針對任務本身及任務執行使用的資源等各類對象提供多種監控方式,方便您根據監控警示及時發現並處理異常,保障資料生產的高效與穩定。
本文僅為您介紹營運中心模組的任務運行維度基本使用流程,您可根據實際業務需求,執行更豐富的營運操作,例如:
對任務執行上下線,凍結等更多營運操作,詳情請參見周期任務基本營運操作。
對任務營運操作進行相關管控,詳情請參見營運操作管控(進階)。
更多關於營運中心模組的介紹,詳情請參見營運中心概述。
進入營運中心
登入營運中心控制台,切換至目標地區後,在下拉框中選擇對應工作空間後,單擊進入營運中心。
操作流程
階段一:測實驗證調度任務
為避免周期任務調度不符合預期,建議您在任務發布後先檢查周期任務配置的調度參數、調度資源群組等是否正確。若不符合預期,請修改相應配置並重新發布。
通過煙霧測試 (Smoke Test)功能驗證周期任務在生產環境執行是否正確。若執行出錯,請根據報錯及時處理,保障任務可正常運行。
通過補資料功能可重新計算歷史時間段內的資料。
周期任務發布成功後會根據調度周期組建循環執行個體,如果在DataStudio中配置的執行個體產生方式為T+1次日產生,則任務將在第二天開始調度;如果配置為發布後即時產生,則任務當天便會調度。您可查看調度執行個體的產生及運行情況,判斷任務的周期調度是否正常。
節點執行測試或補資料操作後,您可查看資料的寫入情況。
階段二:監控周期調度任務
您可根據業務需求,為周期調度任務配置智能監控規則,監控任務的調度健全狀態,保障該任務後續可以正常調度。
為保障高優先順序任務可在指定時間順利產出資料,您可為該任務設定智能基準監控,當預測到任務無法在指定時間點完成時,基準會主動發送任務異常資訊,協助您及時擷取並快速處理異常。
通過自訂獨享資源群組的監控規則,對獨享資源群組的使用率及資源群組上等待的執行個體數設定監控警示,並進行相關營運操作。
步驟一:查看周期任務配置
為避免周期任務調度不符合預期,建議您在任務發布後先查看該任務的配置(例如,任務的調度參數、節點依賴關係等)是否正確。
尋找目標節點。
在左側導覽列單擊
。在周期任務頁面搜尋目標節點。
查看節點詳情。
單擊目標節點,進入節點DAG圖。
單擊展開詳情,查看節點的詳細資料。
更多周期任務的操作,詳情請參見查看並管理周期任務。
若節點的配置不符合預期,請進入資料開發(DataStudio)找到該節點,在節點編輯頁面修改配置並重新發布。詳情請參見節點相關操作。
本文樣本在周期工作清單中,尋找發行的result_table
節點,查看其調度參數、調度資源群組配置是否正確。
步驟二:測試周期任務
通過對周期任務執行煙霧測試 (Smoke Test),驗證該任務在生產環境的調度運行是否符合預期。該操作將真實執行代碼邏輯。
進入煙霧測試 (Smoke Test)。
您可通過如下兩種方式進入煙霧測試 (Smoke Test)頁面。
方式一:在周期工作清單,單擊目標任務操作列的測試。
方式二:在目標任務的DAG圖,按右鍵該任務,選擇測試。
配置任務測試回合的業務日期及已耗用時間,單擊確定。
任務測試回合時會產生測試執行個體,您可進入
頁面查看執行個體的運行詳情,判斷其健全狀態。說明煙霧測試 (Smoke Test)更多介紹,詳情請參見執行煙霧測試 (Smoke Test)。
查看測試執行個體,詳情請參見執行測試並查看測試執行個體。
本文樣本測試result_table
節點的運行是否成功。您可根據圖示步驟測試回合節點,並查看所產生測試執行個體的執行情況。
步驟三:周期任務補歷史資料
周期任務開發完成並提交發布後,會按照調度配置定時運行。如果您希望重新計算歷史時間段內的資料,則可通過補資料功能實現。
進入補資料。
您可通過如下兩種方式進入補資料頁面。
方式一:在周期工作清單,單擊目標任務操作列的補資料。
方式二:在目標任務的DAG圖,按右鍵該任務,選擇補資料。
選擇補資料模式。
您可根據需求選擇如下補資料模式:
補資料方式
描述
適用情境
選擇一個或多個任務作為根任務,可基於根任務手動選擇將其下遊任務作為本次補資料的任務範圍,支援指定部分下遊節點。
說明相容原當前節點、當前節點及下遊節點、進階模式等補資料方案。
最大支援同時補的根任務數上限為500,總任務數(即根任務及其下遊任務)上限為2000。
用於對當前節點及下遊節點進行批量補資料操作。
用於靈活選擇一批節點進行批量補資料操作,節點之間可以不存在依賴關係。
選擇一個起始任務作為根任務,以及一個或多個結束任務,平台自動分析,將根任務與結束任務間的所有任務作為本次補資料的任務範圍(包含起始任務和結束任務)。
用於對依賴關係較複雜的任務進行全鏈路補資料。
選擇一個任務作為根任務,並按照下遊節點所在工作空間確定本次補資料的任務範圍。
說明相容原海量節點模式補資料方案,最大支援同時補的任務數上限為
2W
。不支援配置任務黑名單。
若當前節點的下遊節點存在於多個工作空間,您需對工作空間的節點執行補資料,可使用該方式。
選擇一個根任務後,系統自動分析該任務及所有下遊任務作為本次補資料的任務範圍。
重要僅在補資料任務運行時,才能看到觸發了哪些任務運行,請謹慎使用。
用於對根任務及其全量下遊任務進行補資料。
配置補資料參數。
根據業務需求配置補資料的業務日期、待補資料的節點等。不同模式,需配置的參數存在差異,詳情請參見執行補資料並查看補資料執行個體(新版)。
本文樣本使用當前節點模式,對result_table
節點補業務日期2024-09-17 ~ 2024-09-19
時間段每天00:00
~01:00
的資料。配置步驟參考下圖。
配置補資料後,節點代碼中的變數將根據您配置的調度參數及業務日期替換為具體的值。
步驟四:查看周期執行個體
周期任務發布成功後會根據調度周期組建循環執行個體,如果在DataStudio中配置的執行個體產生方式為T+1次日產生,則任務將在第二天開始調度;如果配置為發布後即時產生,則任務當天便會調度。您可查看產生的周期執行個體,判斷任務的調度運行是否正常。
進入周期執行個體。
在營運中心左側導覽列,單擊
。查看周期執行個體。
根據周期任務的調度配置,查看該任務是否調度產生相應周期執行個體並運行正常。更多周期執行個體內容,詳情請參見查看周期執行個體。
若執行個體為未運行狀態,建議您進行如下處理:
通過DAG面板中的上遊分析功能,快速定位阻塞當前任務啟動並執行關鍵上遊任務。
通過運行診斷功能,診斷該關鍵上遊任務未啟動並執行原因或存在的問題。當任務依賴層級較深時,您可通過運行診斷功能快速定位問題,提升營運效率。
本文樣本查看小時調度節點result_table
在2024.09.19
運行產生的周期執行個體情況。
步驟五:查看執行結果
周期任務進行測試或補資料後,您可通過以下方式查看資料寫入情況:
進入資料地圖查看。
使用
查看。若您僅需在資料開發(DataStudio),即開發環境,查詢資料及相關SQL代碼、測試代碼的實際運行情況與期望值是否相符,或驗證代碼的正確性,而無需將資料或SQL代碼發布至生產環境並操作生產環境引擎,則可通過建立臨時查詢檔案實現。
RAM使用者預設無MaxCompute引擎中生產表的查詢許可權。您可進入資料地圖,在表的詳情頁申請該表許可權。詳情請參見申請表許可權。
節點在資料開發執行時,資料將寫入開發引擎專案;在生產環境執行時,資料將寫入生產引擎專案。查詢時,請確認資料所在引擎專案。您可進入
頁面,查看對應環境的引擎專案資訊。MaxCompute支援跨專案訪問表(例如,訪問建立在其他資料來源中的表、開發專案訪問生產專案中的表),但部分引擎不支援。對應引擎類型是否支援跨專案訪問表,請以引擎的實際功能為準。
本文樣本result_table
節點所在生產環境的引擎專案為mc_test_project
,使用臨時查詢建立ODPS SQL節點,通過SQL語句查詢生產環境中該表(即mc_test_project.result_table
)對應的分區資料。
步驟六:建立自訂監控規則
節點測實驗證無誤後,您可為節點自訂監控規則,監控節點運行狀態。當節點運行出錯時DataWorks會根據配置發送相應警示,以便您及時發現並處理異常,保障節點日後可正常調度。
在左側導覽列單擊
。建立自訂規則。
單擊建立自訂規則。
配置規則資訊。
您可根據業務需求,自訂所需規則,配置詳情請參見自訂監控規則。
本文樣本為
result_table
節點配置運行失敗時監控警示,具體配置如下圖。當result_table
節點運行出錯時,會觸發Test rules
規則,並以簡訊方式發送警示給節點責任人。同時,警示資訊最多發送3次,每次警示間隔30分鐘。說明請提前配置警示連絡人相關資訊,詳情請參見查看和設定警示連絡人。
步驟七:建立智能基準(進階)
為保障任務可在指定時間內順利產出,您可為任務設定基準監控。將任務添加至基準上並設定任務優先順序和承諾時間,DataWorks將根據任務運行情況計算基準任務的預計完成時間,並使高優先順序任務優先獲得調度資源。當預測基準任務可能無法在承諾時間前完成時,DataWorks將發出警示,您可基於警示儘快處理異常。
在左側導覽列單擊智能基準。
建立智能基準。
在基準管理頁簽,單擊建立基準。
設定基準資訊。
您可根據業務需求,設定基準資訊,配置詳情請參見建立基準。
本文樣本為
result_table
節點配置小時基準,監控節點每小時的資料產出情況,具體配置如下圖。部分參數說明如下:優先順序:數值越大,優先順序越高。高優先順序任務在資源緊張的情況下會優先獲得調度資源。
預計完成時間:根據節點歷史一段時間的完成情況推算其預計完成時間。
承諾時間:設定節點最晚需產出資料的時間點。您可根據業務需要及實際歷史一段時間節點的運行完成情況進行配置。
預警餘量:根據承諾時間來設定一定的預警餘量,用於處理任務異常情況,以保障任務可在承諾時間點完成。
說明預警餘量與承諾時間至少間隔5分鐘。
當
result_table
節點的小時執行個體無法在每小時的30分鐘內完成時,將觸發Test Baselines
基準,並以簡訊方式發送警示給節點責任人。同時,警示資訊最多發送3次,每次警示間隔30分鐘。
步驟八:建立資源群組自動營運規則
如果您使用的是獨享資源群組運行任務,則可根據業務需求建立獨享資源群組的自動營運規則,對資源群組的使用率及資源群組上等待的執行個體數設定監控警示並進行相關營運操作。
自動營運功能是通過關聯獨享資源群組的監控規則,對運行在目標資源群組上的執行個體任務定製監控指標,並結合商務邏輯自訂營運規則。當執行個體任務滿足過濾條件時,將自動觸發並執行營運動作,以達到自動營運的目的。
當前僅支援基於獨享調度資源群組進行自動營運。
為避免資源緊張導致任務執行緩慢,您可將任務移至獨享調度資源群組上執行。修改任務使用的資源群組,詳情請參見通用參考:切換資源群組。
建立資源群組監控規則。
在左側導覽列單擊
。建立並配置資源群組監控規則。
資源群組監控規則的配置與節點的監控規則類似,僅需將物件類型選擇獨享調度資源群組即可。配置詳情請參見自訂監控規則。
本文樣本對
Exclusive_Scheduling_Resource
資源群組進行資源群組利用率的監控,配置如下圖所示。說明本文僅示範配置操作,實際配置時,請為您所使用的資源群組配置監控規則。
當
Exclusive_Scheduling_Resource
資源群組的資源群組利用率大於90%,並且持續10分鐘時,會觸發Resource group monitoring rules
規則,並以簡訊方式發送警示給接收人。該警示資訊最多發送3次。
基於資源群組監控規則配置自動營運規則。
在左側導覽列單擊
。在規則管理頁簽單擊添加規則。
配置規則資訊。
您可根據業務需求,配置規則資訊,配置詳情請參見建立資源群組自動營運規則。
本文樣本建立
Automatic_test
,並關聯Resource group monitoring rules
獨享調度資源群組監控規則,當Resource group monitoring rules
規則被觸發後,則DataWorks將對Automatic_test
中滿足過濾條件的執行個體自動執行營運操作,具體配置如下圖。部分參數說明如下:關聯監控規則:目前僅支援關聯獨享調度資源監控規則。您需提前建立所需的資源群組監控規則。
營運動作:目前僅支援選擇終止運行執行個體。即觸發營運規則後,滿足條件的執行個體將被終止運行。
當
Exclusive_Scheduling_Resource
獨享調度資源群組的資源群組利用率大於90%,並且持續10分鐘時,DataWorks將對指定工作空間下運行在Exclusive_Scheduling_Resource
資源群組的周期執行個體、測試執行個體、補資料執行個體中優先順序為1的小時、分鐘任務執行終止操作。
營運操作管控(進階)
營運中心支援節點凍結、節點解凍、補資料、節點下線等擴充點,您可使用該擴充點結合擴充程式,實現自訂管控任務的邏輯處理與營運操作。詳情請參見擴充程式概述、應用樣本:營運中心觸發事件檢查。
後續步驟
您可為節點產出的表資料配置資料品質監控規則,保障表資料的產出符合預期。詳情請參見資料品質。