若您需保障重要任務能按時完成,則可使用基準管理功能將重要任務添加至基準並設定承諾時間,系統將根據任務運行情況計算基準任務的預計完成時間。當系統判斷基準任務可能無法在承諾時間前完成時,將發出警示。本文為您介紹如何建立和管理基準。
背景資訊
智能基準能夠及時捕捉導致任務無法按時完成的異常情況並提前預警,保障複雜依賴情境下重要資料能在預期時間內順利產出。詳情請參見智能基準概述。
基準建立完成且開啟後,第二天生效,您可於第二天前往周期執行個體頁面查看基準執行情況。
使用限制
版本要求:
僅DataWorks標準版及以上版本可使用基準管理功能。低版本使用者請先升級再使用該功能,詳情請參見DataWorks各版本詳解。
許可權管控:
僅阿里雲主帳號、擁有空間管理員或租用戶系統管理員角色許可權的RAM使用者可建立基準。
僅租用戶系統管理員和基準責任人可開啟、關閉、刪除及修改基準。
如某使用者需執行上述操作,可為該使用者添加相關角色,詳情請參見為工作空間增加空間成員。
警示方式:
DataWorks支援使用郵件、簡訊、電話、DingTalk群機器人和WebHook等警示方式,不同方式使用限制如下。
警示方式
可用DataWorks版本
可用地區
說明
簡訊
標準版及以上版本。
所有地區
其他地區如果希望通過簡訊方式警示,您需要先單擊申請連結加入“阿里雲巨量資料AI平台”交流群,再掃描下方二維碼加入DataWorks產品DingTalk交流群,進行售前售後諮詢,諮詢可直接@智能機器人,值班時間段內也可直接聯絡值班人員。
電話
所有版本
所有地區
僅支援中國內地手機號的電話警示。
WebHook
企業版
華東2(上海)、西南1(成都)、華北3(張家口)、華北2(北京)、華東1(杭州)、華南1(深圳)、中國(香港)、歐洲中部 1(法蘭克福)、亞太地區東南1(新加坡)
僅支援推送警示資訊至企業微信或飛書。
僅支援使用DingTalk群、企業微信和飛書的WebHook地址。如您需要使用自主開發的WebHook發送Message Service,請參考智能監控自訂WebHook進行適配,並在完成後與我們聯絡以便進一步處理。
說明RAM使用者如果希望通過簡訊、電話等方式接收警示資訊,則需要在警示連絡人頁面,將目標RAM使用者添加為警示連絡人。當任務運行報錯時,DataWorks會將相應的警示資訊發送至對應連絡人。詳情請參見查看和設定警示連絡人。
建立基準
進入營運中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入營運中心。
單擊左側導覽列中的
。建立基準。
在基準管理頁簽中,單擊建立基準。
設定基準的基本屬性。
參數說明如下。
參數
說明
基準名稱
自訂基準名稱。
所屬工作空間
選擇當前需保障的任務所屬的工作空間。
責任人
基準負責人。
基準類型
定義基準監測周期,包括天監測和小時監測。
Apsara Infrastructure Management Framework線:按照天維度對任務進行監測,天調度任務可選擇此監測方式。
小時基準:按照小時維度對任務進行監測,小時調度任務可選擇此監測方式。
保障任務
選擇需要添加到當前基準上進行資料產出保障的任務。
任務節點:輸入任務節點名稱或ID,單擊右側的添加按鈕。可添加多個任務節點至當前基準。
商務程序:輸入商務程序名稱或ID,單擊右側的添加按鈕。預設將當前商務程序下的所有任務添加至當前基準。
說明選擇商務程序後,建議僅添加商務程序最下遊的節點任務,添加後,影響該節點資料產出的上遊節點都將被納入基準監控範圍,不推薦將商務程序上所有任務都添加至基準。
優先順序
定義基準的優先順序,數值越大基準優先順序越高,基準上任務的優先順序也會越高。優先順序高的任務,在調度資源緊張的情況下,將優先獲得調度資源。配置優先順序後將會在第二天產生的周期執行個體中生效。
說明MaxCompute節點任務:
如下情況該優先順序將映射為MaxCompute計算任務的優先順序。
MaxCompute Project開啟優先順序功能。
MaxCompute Project使用訂用帳戶計算資源。
MaxCompute作業優先順序=9-DataWorks基準優先順序。
EMR節點任務:
可通過設定節點所在基準優先順序與YARN隊列優先順序的映射關係,來調整該節點最終的YARN隊列優先順序,即能否優先獲得調度和執行資源。詳情請參見設定基準優先順序與YARN隊列優先順序的映射關係。
預計完成時間
平台將根據基準任務歷史一段時間內(通常統計範圍為10天)的平均完成時間計算基準的預計完成時間,若預計完成時間晚於基準預警時間,平台會觸發基準警示。警示機制,請參見附錄:基準警示機制。
說明如果歷史資料不足,則系統會提示歷史資料不足,暫無法預估。
承諾時間
基準上的任務承諾的最晚完成時間(即需保障的資料最晚的產出時間),基準將根據該時間來推算預警時間。承諾時間需要基於預計完成時間來配置。保證
承諾時間 - 預警餘量時間
晚於基準任務的預計完成時間。說明基準預警時間=承諾時間-預警餘量
,若實際完成時間晚於承諾時間 - 預警餘量時間
,則會觸發警示。例如,設定承諾時間為3:30
,預警餘量為10分鐘,如果系統預測任務無法在3:20
分完成,則會發出基準警示。小時基準需要指定保障資料產出的小時執行個體,並設定該執行個體(小時任務某周期)最晚完成時間。
由於基準上的任務可能存在執行時間長度超過24小時的情況,因此,平台允許承諾時間設定在2天內(即48小時內,
00:00~47:59
)。若基準上任務執行時間超過1天,可選擇將基準承諾時間設定在第二天的具體時間點。例如,基準上任務執行時間為一天半,則承諾時間可設定為36:00
。
預警餘量
用於定義基準的預警時間。承諾時間與任務預計完成時間至少間隔5分鐘,否則會導致頻繁警示。建議預警餘量基於基準上任務的運行時間長度來配置。詳情請參見:合理設定基準承諾時間和預警餘量。
設定基準的警示行為。
您可通過警示開關控制基準是否開啟警示,並定義基準上資料無法按時產出時的基準警示策略,及影響基準資料產出的任務及其上遊任務出錯或變慢時的事件警示策略。配置前,建議先瞭解基準的警示機制,詳情請參見附錄:基準警示機制。
開啟警示開關。
開啟警示開關後,DataWorks將根據配置的警示方式檢測,若滿足警示條件,則發送相關警示資訊。
當預測到基準上任務無法在承諾時間內完成時,系統將根據定義的警示方式發送基準警示資訊。詳情請參見核心邏輯介紹:基準警示。
當基準任務及其上遊任務出錯,或關鍵路徑上的任務變慢時,系統將根據定義的警示方式發送事件警示資訊。您可以在DataWorks的事件管理頁面查看當前已存在的事件列表。詳情請參見事件管理。
選擇警示方式。
警示開關開啟後,您可根據需要選擇警示方式,建議對重要任務同時設定基準警示和事件警示。
重要如果無法正常接收警示,請參見在營運中心設定警示後收不到,該如何排查?
基準警示
參數
描述
基準開關
用於控制是否開啟該基準。
說明關閉警示開關後,基準不會產生任何警示。如果基準任務為開啟狀態,則基準執行個體會正常產生、基準優先順序仍然生效。
警示方式
支援通過郵件、簡訊、電話方式給基準責任人、值班表中的當日值班人員或指定人員發送警示資訊。配置值班表,詳情請參見值班表。
支援通過DingTalk群機器人或WebHook地址給其他應用(目前支援DingTalk、企業微信和飛書)發送警示資訊。 配置DingTalk機器人,詳情請參見情境實踐:發送警示訊息至DingTalk群。
說明您可通過校正連絡方式或發送測試訊息,驗證警示資訊是否可正常發送。
僅DataWorks專業版及以上版本,才支援使用電話警示。
若您選擇通過電話方式進行警示,為避免短時間內產生大量警示電話,DataWorks會對警示電話進行過濾,同一個使用者在20分鐘內最多隻會接收到一通警示電話,其餘警示電話將被降級為簡訊,請知悉。
最大警示次數
警示的最大次數,超過設定的次數後,不再產生警示。
最小警示間隔
兩次警示之間的最小時間間隔。
勿打擾時間
設定了勿打擾時間後,則在該時間段內系統將不會發送警示。
例如,當目標任務設定的勿打擾時間為
00:00
到08:00
時,則該時間段內基準與事件的警示將不會觸發。如果到達8點,事件仍處於異常狀態,則會發出警示資訊。事件警示
參數
描述
事件類型
定義出現哪種類型的事件會產生警示。包括:
出錯:基準監控範圍內的任務運行失敗。
變慢:基準監控範圍內的任務本次已耗用時間和過去一段時間內的平均已耗用時間相比,明顯變長。
警示方式
支援通過郵件、簡訊、電話方式給任務責任人、值班表中的當日值班人員或指定人員發送警示資訊。配置值班表,詳情請參見值班表。
支援通過DingTalk群機器人或WebHook地址給其他應用(目前支援DingTalk、企業微信和飛書)發送警示資訊。配置DingTalk機器人,詳情請參見情境實踐:發送警示訊息至DingTalk群。
說明您可通過校正連絡方式或發送測試訊息,驗證警示資訊是否可正常發送。
僅DataWorks專業版及以上版本,才支援使用電話警示。
若您選擇通過電話方式進行警示,為避免短時間內產生大量警示電話,DataWorks會對警示電話進行過濾,同一個使用者在20分鐘內最多隻會接收到一通警示電話,其餘警示電話將被降級為簡訊,請知悉。
最大警示次數
警示的最大次數,超過設定的次數後,不再產生警示。
最小警示間隔
兩次警示之間的最小時間間隔。
勿打擾時間
設定了勿打擾時間後,則在該時間段內系統將不會發送警示。
例如,當目標任務設定的勿打擾時間為
00:00
到08:00
時,則該時間段內基準與事件的警示將不會觸發。如果到達8點,事件仍處於異常狀態,則會發出警示資訊。單擊確定,完成基準的建立。
說明關閉警示開關後,基準不會產生任何警示。如果基準任務為開啟狀態,則基準執行個體會正常產生、基準優先順序仍然生效。
基準新增工作
每個任務只可以添加在一條基準上。例如,當任務A已添加至基準A上,此時建立基準B並新增工作A時,任務A將從基準A轉移至基準B。
當開啟狀態的基準上無任務時,該基準將變為空白基準併產生空基準執行個體,空基準的說明,詳情請參見為什麼在基準執行個體頁面會顯示基準狀態為空白基準。
您可通過以下兩種方式新增工作至基準:
進入基準管理頁面,單擊右上方的建立基準進行添加。
進入周期任務頁面,選擇相應任務後的
。說明此方式僅支援建立基準並大量新增選中任務至該建立基準上,暫不支援將批量選中的任務添加至已有基準中。
單個任務添加至基準
單擊目標周期任務操作列的
。大量新增任務至基準
勾選多個周期任務,在底部功能表列選擇
。
管理基準
您可在基準管理頁面根據責任人、工作空間、基準名稱、優先順序等條件進行精確篩選,過濾目標基準,並執行如下基準操作:
查看詳情:查看基準任務的基本情況。
編輯基準:根據需要修改基準資訊。
查看變更記錄:查看基準的歷史變更操作。
開啟或關閉基準:控制基準任務的狀態,開啟後方可組建循環執行個體。保障基準每日產生基準執行個體,您可在基準執行個體面板查看每日基準詳情。
刪除基準:根據需要刪除基準任務。
附錄:基準警示機制
基準警示是對開啟狀態且開啟警示開關的基準提供的一個警示提醒,您可基於基準的預計完成時間設定基準的預警餘量和承諾時間。DataWorks將根據監控範圍內任務歷史10天的平均完成時間推算出任務預計最晚完成時間,並結合基準上任務的實際運行情況進行監控,當預測到基準上任務無法在基準預警時間(基準承諾時間-預警餘量)內完成時,系統將根據該基準定義的基準警示接收人發送基準警示資訊。
預警餘量和基準承諾時間設定不合理可能導致警示不符合預期,詳情請參見合理設定基準承諾時間和預警餘量。
任務運行前,基準警示策略:
說明基準在每日任務運行前,通過計算當日基準監控範圍內任務歷史10天內的平均完成時間,將無法在基準預警時間內完成的異常資訊第一時間發送給基準警示接收人員。在基準上的任務依賴關係錯綜複雜,並且依賴變更頻繁情境下,基準可為您提前發現問題並預警。
若根據基準任務歷史10天內的平均完成時間,推算出基準任務預計完成時間晚於基準預警時間,平台將會觸發基準預警。您可在基準管理介面查看計算出的基準任務預計完成時間,詳情請參見建立基準。
若根據基準任務的上遊任務歷史10天內的平均完成時間,推算出上遊任務預計完成時間晚於基準預警時間,平台將會觸發基準預警。
任務運行過程中,基準警示策略:
當基準上任務實際完成時間晚於基準預警時間時,將會觸發基準預警。
後續步驟
基準建立完成後,您可執行如下後續操作: