DataWorks的Check節點可用於檢查目標對象(MaxCompute分區表、FTP檔案、OSS檔案、HDFS檔案、OSS_HDFS檔案以及即時同步任務)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。如果某任務的運行依賴目標對象,您可使用Check節點檢查目標對象,並設定該任務為Check節點的下遊任務,當Check節點滿足檢查策略後,便會運行成功並觸發下遊任務執行。本文為您介紹Check節點支援檢查的對象、具體的檢查策略、以及如何配置Check節點。
支援檢查的對象及檢查策略
Check節點目前僅支援檢查資料來源和即時同步任務。檢查策略如下:
資料來源
MaxCompute分區表
說明支援MaxCompute分區表,不支援檢查MaxCompute非分區表。
Check節點提供了如下兩種檢查策略,輔助您判斷MaxCompute分區表資料是否已達到可用狀態。
策略一:檢查目標資料分割是否存在
如果Check節點檢查到MaxCompute分區表的目標資料分割已存在,則平台即認為MaxCompute分區表資料產出完成,已可用。
策略二:檢查目標資料分割在指定時間長度是否有更新
如果Check節點檢查到MaxCompute分區表的目標資料分割在指定時間長度內未更新,則表示該分區的資料已產出完成,平台即認為MaxCompute分區表資料已可用。
FTP、OSS、HDFS或OSS_HDFS檔案
如果Check節點檢查到目標FTP檔案、OSS檔案、HDFS檔案或OSS_HDFS檔案存在,則平台即認為該檔案已可用。
即時同步任務
以Check節點的調度啟動時間點為判斷時間,如果檢測到即時同步任務已完成該時間點及之前的資料寫入,則平台認為即時同步任務檢查成功。
除此之外,您還需指定Check節點的檢查時間間隔(即每次檢查後需要多久才會觸發下一次檢查)與停止檢查條件(即檢查次數上限或檢查截止時間),若任務到達檢查次數上限或檢查截止時間仍未檢查通過,Check節點將失敗退出。具體策略配置,請參見步驟二:配置檢查策略。
Check節點可實現周期性檢查目標對象,您需根據預期的開始檢查時間,配置Check節點的定時調度時間。當滿足調度運行條件後,Check節點將一直處於運行中狀態直至滿足檢查條件返回成功,或由於長時間未檢查通過而返回失敗。調度配置,詳情請參見步驟三:配置任務調度。
使用限制
資源群組限制
支援Serverless資源群組運行Check節點任務。如需購買使用Serverless資源群組,詳情請參見新增和使用Serverless資源群組。
節點功能限制
一個Check節點僅支援檢查一個對象,若您的任務依賴了多個對象(例如,某任務依賴多個MaxCompute分區表),則需建立多個Check節點分別校正相應對象。
Check節點的檢查時間間隔最小為
1
分鐘,最大為30
分鐘。
DataWorks版本限制
僅支援DataWorks專業版及以上版本使用Check節點。低版本DataWorks可參考版本升級說明升級。
地區限制
DataWorks目前僅支援華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)地區的工作空間使用Check節點。
前提條件
Check節點基於資料來源進行校正時,使用Check節點前,請先根據要檢查的物件類別建立好對應資料來源,具體如下。
檢查物件類別
相關準備操作
參考文檔
MaxCompute分區表
已建立MaxCompute資料來源並綁定至資料開發(DataStudio)。
在DataWorks中,您需先將MaxCompute專案建立為DataWorks的MaxCompute資料來源,才可通過該資料來源訪問相應MaxCompute專案的資料。
已建立MaxCompute分區表。
FTP檔案
已建立FTP資料來源。
在DataWorks中,您需先將FTP服務建立為DataWorks的FTP資料來源,才可通過該資料來源訪問相應FTP服務的資料。
OSS檔案
已建立OSS資料來源且資料來源訪問模式為Access Key。
在DataWorks中,您需要先將OSS的Bucket建立為DataWorks的OSS資料來源,才可通過該資料來源訪問相應Bucket中的資料。
說明目前僅支援在Check節點中通過Access Key模式訪問OSS資料來源,RAM角色授權模式配置的OSS資料來源無法用於Check節點。
HDFS檔案
已建立HDFS資料來源。
在DataWorks中,您需先將HDFS檔案建立為DataWorks的HDFS資料來源,才可通過該資料來源訪問相應HDFS檔案資料。
OSS_HDFS檔案
已建立OSS_HDFS資料來源。
在DataWorks中,您需先將OSS_HDFS服務建立為DataWorks的OSS_HDFS資料來源,才可通過該資料來源訪問相應OSS_HDFS服務的資料。
Check節點基於即時同步任務進行校正時,僅支援Kafka到MaxCompute的即時同步任務。使用Check節點前,請先建立好對應即時同步任務,詳情請參見DataStudio側即時同步任務配置。
步驟一:建立Check節點
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊表徵圖,選擇
。根據介面指引,輸入節點的路徑、名稱等資訊。
步驟二:配置檢查策略
您可根據業務需要,選擇使用Check節點檢查資料來源或即時同步任務,並配置相應策略。
資料來源
配置MaxCompute分區表的檢查策略
配置FTP檔案的檢查策略
配置OSS檔案的檢查策略
配置HDFS檔案的檢查策略
配置OSS_HDFS檔案的檢查策略
即時同步任務
參數說明如下。
參數 | 描述 |
Check對象 | 選擇即時同步任務。 |
即時同步任務 | 待檢查的即時同步任務。 說明
|
Chcek停止策略 | 用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:
|
步驟三:配置任務調度
如您需要周期性使用Check節點進行分區資料檢查,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。詳情請參見任務調度屬性配置概述。
Check節點與普通調度節點一樣,需設定調度依賴、調度時間等調度資訊。DataWorks上每個節點均需擁有上遊依賴,若Check節點無實際上遊依賴,您可根據空間業務複雜度選擇依賴虛擬節點或直接依賴工作空間根節點,詳情請參見虛擬節點。
您需設定節點的重跑屬性和依賴的上遊節點,才可提交節點。
步驟四:提交發布任務
節點任務配置完成後,需執行提交發佈動作,提交發布後節點即會根據調度配置內容進行周期性運行。
單擊工具列中的表徵圖,儲存節點。
單擊工具列中的表徵圖,提交節點任務。
提交時需在提交對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱及煙霧測試 (Smoke Test)。
說明您需設定節點的重跑屬性和依賴的上遊節點,才可提交節點。
程式碼檢閱可對任務的代碼品質進行把控,防止由於任務代碼有誤,未經審核直接發布上線後出現任務報錯。如進行程式碼檢閱,則提交的節點代碼必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱。
為保障調度節點任務執行符合預期,建議您在發布前對任務進行煙霧測試 (Smoke Test),詳情請參見煙霧測試 (Smoke Test)。
如您使用的是標準模式的工作空間,任務提交成功後,還需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務。
後續操作
Check節點提交發布至生產營運中心後,會基於節點的配置周期性運行檢查,您可通過DataWorks的營運中心查看檢查結果並進行相關營運操作,詳情請參見周期任務基本營運操作。