補資料可通過補歷史或未來一段時間的資料,將寫入資料至對應時間分區。代碼中的調度參數,將根據補資料選擇的業務時間自動替換為具體值,並結合業務代碼將對應時間資料寫入指定分區。具體寫入的分區與執行的代碼邏輯,與任務定義的代碼有關。本文為您介紹新版補資料如何執行補資料操作並管理補資料執行個體。
背景資訊
周期任務開發完成並提交發布後,任務會按照調度配置定時運行。如果您希望在指定時間段運行周期任務,可使用補資料功能。DataWorks支援的補資料方式如下。
補資料方式 | 描述 | 適用情境 |
選擇一個或多個任務作為根任務,可基於根任務手動選擇將其下遊任務作為本次補資料的任務範圍,支援指定部分下遊節點。 說明
|
| |
選擇一個起始任務作為根任務,以及一個或多個結束任務,平台自動分析,將根任務與結束任務間的所有任務作為本次補資料的任務範圍(包含起始任務和結束任務)。 | 用於對依賴關係較複雜的任務進行全鏈路補資料。 | |
選擇一個任務作為根任務,並按照下遊節點所在工作空間確定本次補資料的任務範圍。 說明
| 若當前節點的下遊節點存在於多個工作空間,您需對工作空間的節點執行補資料,可使用該方式。 | |
選擇一個根任務後,系統自動分析該任務及所有下遊任務作為本次補資料的任務範圍。 重要 僅在補資料任務運行時,才能看到觸發了哪些任務運行,請謹慎使用。 | 用於對根任務及其全量下遊任務進行補資料。 |
使用限制
執行個體清理原則
不支援手動刪除補資料執行個體,執行個體到期後(30天左右)平台將自動刪除。如果任務不需要再運行,可選擇凍結執行個體。
公用調度資源群組執行個體保留一個月(30天),日誌保留一周(7天)。
獨享調度資源群組任務執行個體、日誌均保留一個月(30天)。
運行完成的執行個體,當日誌大於3M時,平台會每天定時清理。
許可權限制
對於補資料中選擇的根任務或其下遊任務,若您沒有任務所在工作空間的操作許可權,則無法對該任務執行補資料。如果工作空間的任務為本次補資料的中間任務(即該任務的上下遊依賴在此次補資料範圍內),為保障下遊任務運行,該任務將空跑(不會真實執行,任務啟動運行後立即返回成功狀態),可能導致該任務的下遊任務資料產出異常,請謹慎操作。
注意事項
執行個體運行相關
當補一個區間的資料時,若啟動補資料的第一天存在一個運行失敗的執行個體,則當天的補資料執行個體均會被置為失敗狀態,第二天的執行個體也不會啟動運行。僅當第一天的全部執行個體均運行成功,第二天的執行個體才會啟動運行。
小時或分鐘任務補某一天資料時,當天所有執行個體是否並發執行與任務是否設定自依賴有關。
如果周期執行個體和補資料執行個體均啟動運行,為保證周期執行個體正常運行,您需要終止補資料執行個體的運行。
支援將無需補資料的任務添加至黑名單。若黑名單中的任務為本次補資料的中間任務(即該任務的上下遊依賴在此次補資料範圍內),為保障下遊任務運行,該任務將空跑(不會真實執行,任務啟動運行後立即返回成功狀態),但可能導致該任務的下遊任務資料產出異常。
調度資源相關
補資料執行個體過多或並行數過高可能導致周期調度的資源緊張,請根據需求合理配置。
為避免補資料執行個體佔用過多的資源而影響周期執行個體運行,平台對補資料執行個體制定以下規則:
如果補資料選擇業務日期為昨天(T-1),即補當天資料時,補資料任務優先順序由任務所在基準優先順序決定。
如果補資料選擇業務日期為歷史業務日期(T-2)時,補資料任務將按照以下規則對任務進行降級處理:
7級、8級任務優先順序降為3級。
5級、3級任務優先順序降為2級。
1級任務優先順序保持不變。
進入補資料介面
進入營運中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入營運中心。
在左側導覽列單擊
,進入補資料頁面。
如需對某個周期任務補資料,也可在
介面,單擊對應任務後的補資料。步驟一:建立補資料任務
在補資料頁面單擊建立補資料任務,根據業務需求配置補資料任務。
配置基礎資訊。
平台自動產生預設格式的補資料名稱,您可按需修改。
選擇要補資料的任務。
您可通過手動選擇、按鏈路、按工作空間、指定任務及所有下遊等方式,對您有許可權操作的任務發起補資料,並基於該任務選擇需要補資料的其他任務,不同方式的配置參數存在差異。
手動選擇
選擇一個或多個任務作為根任務,再選擇根任務的下遊任務作為本次補資料的任務範圍。該方式相容原“當前節點”、“當前節點及下遊節點”以及“進階模式”補資料方案。
參數說明如下。
參數
描述
方式選擇
選擇手動選擇。
搜尋根任務
通過名稱或ID搜尋、添加根任務。您也可單擊大量新增,通過資源群組、調度周期、工作空間等條件搜尋,大量新增多個根任務。
說明僅支援選擇您已加入工作空間(即您為工作空間成員)的任務。
已選補資料列表
待執行補資料的任務。列表展示已添加的根任務,您可基於根任務選擇要執行補資料的下遊任務。
說明支援根據依賴關係的層級篩選下遊任務,根任務的直接下遊任務預設在一層,以此類推。
最大支援同時執行補資料的根任務數上限為500,總任務數(即根任務及其下遊任務)上限為2000。
任務黑名單
若某任務無需補資料,可將其添加至黑名單。黑名單中的任務將不參與本次補資料。
說明僅支援將根任務納入黑名單,若根任務中的子任務不需要補資料,請在已選補資料列表將其移除。
若黑名單中的任務為本次補資料的中間任務(即該任務的上下遊依賴在此次補資料範圍內),為保障下遊任務運行,該任務將空跑(不會真實執行,任務啟動運行後立即返回成功狀態),但可能導致該任務的下遊任務資料產出異常。
按鏈路選擇
選擇一個起始任務,以及一個或多個結束任務,通過自動分析,將根任務與結束任務間的所有任務作為本次補資料的任務範圍(包括起始任務和結束任務)。
參數說明如下。
參數
描述
方式選擇
選擇按鏈路。
搜尋任務
通過名稱或ID搜尋,添加一個起始任務,以及一個或多個結束任務,平台將根據起始及結束任務分析中間任務(即中間任務為起始任務的直接或間接下遊任務,為結束任務的直接或間接上遊任務)。
中間工作清單
平台根據起始任務及結束任務自動分析到的中間工作清單。
說明列表僅展示2000個任務,超過2000的任務不會被展示,但會正常執行。
任務黑名單
若某任務無需補資料,可將其添加至黑名單。黑名單中的任務將不參與本次補資料。
說明若黑名單中的任務為本次補資料的中間任務(即該任務的上下遊依賴在此次補資料範圍內),為保障下遊任務運行,該任務將空跑(不會真實執行,任務啟動運行後立即返回成功狀態),但可能導致該任務的下遊任務資料產出異常。
按工作空間選擇
選擇一個任務作為根任務,並按照下遊節點所在工作空間確定本次補資料的任務範圍。該方式相容原“海量節點模式”補資料方案。
參數
描述
方式選擇
選擇按工作空間。
搜尋根任務
通過名稱或ID搜尋、添加根任務。平台將對根任務下遊任務所在工作空間的任務進行補資料。
說明僅支援選擇您已加入工作空間(即您為工作空間成員)的任務。
包含根節點
定義此次補資料是否包含根任務。
補資料工作空間
基於根任務下遊任務所在的工作空間,選擇需要對哪些工作空間中的節點進行補資料。
說明僅支援選擇當前所在地區中的DataWorks工作空間進行補資料操作。
選擇工作空間後,預設對工作空間的所有節點補資料,您可根據需要自訂補資料的黑白名單。
任務白名單
除選中的工作空間包含的節點外,仍需要進行補資料的節點。
任務黑名單
選中的工作空間中不需要進行補資料的節點。
指定任務及所有下遊
選擇一個根任務後,平台會自動分析,將該任務及所有下遊任務作為本次補資料的任務範圍。
重要僅在補資料任務運行時,才能看到觸發啟動並執行任務,請謹慎使用。
參數說明如下。
參數
描述
方式選擇
選擇指定任務及所有下遊。
搜尋根任務
通過名稱或ID搜尋、添加根任務。平台將對根任務及其所有下遊任務進行補資料。
說明僅支援選擇您已加入的工作空間(即您為工作空間成員)的任務。
若所選根任務沒有下遊任務,則補資料任務提交後將只補當前根任務的資料。
任務黑名單
若某任務無需補資料,可將其添加至黑名單。黑名單中的任務將不參與本次補資料。
說明若黑名單中的任務為本次補資料的中間任務(即該任務的上下遊依賴在此次補資料範圍內),為保障下遊任務運行,該任務將空跑(不會真實執行,任務啟動運行後立即返回成功狀態),但可能導致該任務的下遊任務資料產出異常。
配置補資料運行策略。
根據業務需要配置補資料任務的已耗用時間、是否並行、是否觸發警示、所使用的資源群組等資訊。
參數說明如下。
參數
描述
業務日期
指定所選任務需要進行補資料的業務日期,精確到天。
如需對該任務的多個不連續的時間段補資料,可單擊添加多段業務日期,配置多個時間段。
當業務日期晚於當前日期,可選擇立即運行定時時間大於此刻的補資料執行個體,後續當實際時間大於配置的業務日期時,平台會立即運行該補資料執行個體。
例如,當前日期為
2024-03-12
,業務日期為2024-03-17
,則等實際日期為2024-03-18
(大於業務日期)時,補資料執行個體便會啟動運行。
說明在離線計算中,最常見的是今天處理昨天的資料,此處昨天就是業務日期。在補資料過程中,會根據您選擇的業務日期產生當時的任務執行個體,以便您可以回溯指定時間的資料。
建議補資料的時間不要太長,以免出現任務需要等待資源的情況。
指定周期
指定所選任務需要啟動並執行周期。任務的定時時間在該時間段內,任務才會產生執行個體並執行。您可通過本功能指定小時、分鐘調度任務只運行指定周期的執行個體(即只補指定周期內的資料)。預設為
00:00~23:59
。說明任務的定時時間不在該時間段內,任務不會產生執行個體。若存在大周期依賴小周期的情況(例如,天任務依賴小時任務),可能會產生孤立執行個體,阻塞任務運行。
建議僅在小時、分鐘調度任務需要補指定周期的資料時修改該參數配置。
並行
若對多個業務日期執行補資料時,可指定若干個分組並發執行本次補資料任務。取值如下:
是:平台將按照指定的分組數對業務日期進行拆分,根據分組結果產生多個補資料批次並發執行。
否:按照業務日期順序串列執行,前一個補資料執行個體運行結束後下一個補資料執行個體才會運行。
說明小時、分鐘任務某天執行個體是否並發執行,與小時、分鐘任務本身是否設定自依賴有關。
並行數取值範圍為
2~10
組,多個執行個體並發執行的情況如下:若業務日期的跨度時間少於並行組數,則任務並發執行。
例如,業務日期為
1月11日~1月13日
,並行數為4組,則只會產生三個補資料執行個體(每個補資料執行個體對應一個業務日期),三個執行個體並發執行。若業務日期的跨度時間大於並行組數,則平台根據業務日期順序兼有串列和並存執行任務。
例如,業務日期為
1月11日~1月13日
,並行數為2組,則會產生兩個補資料執行個體(其中一個補資料執行個體會包含兩個業務日期,這兩個業務日期對應的任務串列執行),兩個補資料執行個體並存執行。
補資料警示
設定此次補資料操作是否會觸發警示。
是:滿足觸發條件則產生警示。
否:此次補資料不會觸發警示。
觸發條件
設定警示觸發條件:
失敗或成功皆警示:無論補資料運行成功或失敗,均會產生警示。
成功警示:補資料成功時才會產生警示。
失敗警示:補資料失敗時才會產生警示。
說明僅當補資料警示選擇是時,需配置該參數。
警示方式
選擇通過簡訊與郵件、簡訊、郵件等方式接收警示,警示接收人為補資料的發起人。
說明僅當補資料警示選擇是時,需配置該參數。
單擊檢驗連絡方式,即可驗證警示接收人的手機號或郵箱是否已登記。若未登記,可參考查看和設定警示連絡人配置。
順序
選擇按照業務日期正序或業務日期倒序進行補資料。
調度資源群組
指定運行補資料執行個體使用的資源群組。
跟隨任務配置:使用周期任務原本配置的資源群組執行補資料執行個體。
指定調度資源群組:使用指定資源群組執行補資料執行個體,避免補資料執行個體與周期執行個體搶佔資源。
說明請注意配置資源群組網路連通,否則任務可能運行失敗。若指定的資源群組未綁定相關工作空間,則仍將使用原有周期任務的資源群組。
已耗用時間段
指定本次產生的補資料任務在什麼時間執行。
跟隨任務配置:按照補資料執行個體的定時時間執行。
指定時間段:設定補資料任務均在指定時間段內才會觸發執行,請根據需要補資料的任務量合理設定已耗用時間段。
說明超過該時間段且處於未運行狀態的任務不會執行,超過該時間段但處於運行中狀態的任務會繼續執行。
配置補資料任務校正策略。
用於配置補資料校正失敗時是否終止任務執行。平台將對本次補資料任務的基本情況和潛在風險項進行檢測,具體如下:
單擊提交,補資料任務建立完成。
步驟二:運行補資料任務
補資料任務到達配置的已耗用時間,且不存在異常情況時,補資料任務將自動觸發運行。
若滿足如下條件,補資料任務將無法運行:
補資料任務開啟校正,校正失敗將阻塞任務運行。詳情請參見建立補資料任務:步驟4。
補資料操作開啟了擴充程式檢查,檢查未通過將阻塞任務運行。詳情請參見擴充程式概述。
管理補資料執行個體
補資料任務啟動後,會產生相應的補資料執行個體,您可在補資料列表查看執行個體的基本資料及運行詳情,並按需執行終止、重跑、複用等管理操作。
地區 | 描述 |
1 | 單擊展開搜尋,可通過補資料名稱、運行狀態、節點類型等條件式篩選需要查詢的執行個體,也可快速批量終止正在啟動並執行補資料任務。 |
2 | 在該地區,您可查看補資料執行個體的相關資訊,主要包括:
在該地區,您可對補資料執行個體執行如下操作:
|
3 | 在該地區,可查看補資料執行個體所包含節點的相關資訊,主要包括:
在該地區,可對節點執行如下操作:
|
4 | 您可以在地區3勾選多個目標節點任務,在地區4單擊終止運行或重跑,即可批量終止運行或重新運行所選的節點任務。 |
執行個體狀態說明
狀態類型 | 狀態標識 |
運行成功狀態 | |
未運行狀態 | |
運行失敗狀態 | |
執行狀態 | |
等待狀態 | |
凍結狀態 |