全部產品
Search
文件中心

DataWorks:Check節點

更新時間:Nov 21, 2024

DataWorks的Check節點可用於檢查目標對象(MaxCompute分區表、FTP檔案、OSS檔案、HDFS檔案、OSS_HDFS檔案以及即時同步任務)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。如果某任務的運行依賴目標對象,您可使用Check節點檢查目標對象,並設定該任務為Check節點的下遊任務,當Check節點滿足檢查策略後,便會運行成功並觸發下遊任務執行。本文為您介紹Check節點支援檢查的對象、具體的檢查策略、以及如何配置Check節點。

支援檢查的對象及檢查策略

Check節點目前僅支援檢查資料來源和即時同步任務。檢查策略如下:

  • 資料來源

    • MaxCompute分區表

      說明

      支援MaxCompute分區表,不支援檢查MaxCompute非分區表

      Check節點提供了如下兩種檢查策略,輔助您判斷MaxCompute分區表資料是否已達到可用狀態。

      • 策略一:檢查目標資料分割是否存在

        如果Check節點檢查到MaxCompute分區表的目標資料分割已存在,則平台即認為MaxCompute分區表資料產出完成,已可用。

      • 策略二:檢查目標資料分割在指定時間長度是否有更新

        如果Check節點檢查到MaxCompute分區表的目標資料分割在指定時間長度內未更新,則表示該分區的資料已產出完成,平台即認為MaxCompute分區表資料已可用。

    • FTP、OSS、HDFS或OSS_HDFS檔案

      如果Check節點檢查到目標FTP檔案、OSS檔案、HDFS檔案或OSS_HDFS檔案存在,則平台即認為該檔案已可用。

  • 即時同步任務

    以Check節點的調度啟動時間點為判斷時間,如果檢測到即時同步任務已完成該時間點及之前的資料寫入,則平台認為即時同步任務檢查成功。

除此之外,您還需指定Check節點的檢查時間間隔(即每次檢查後需要多久才會觸發下一次檢查)與停止檢查條件(即檢查次數上限或檢查截止時間),若任務到達檢查次數上限或檢查截止時間仍未檢查通過,Check節點將失敗退出。具體策略配置,請參見步驟二:配置檢查策略

說明

Check節點可實現周期性檢查目標對象,您需根據預期的開始檢查時間,配置Check節點的定時調度時間。當滿足調度運行條件後,Check節點將一直處於運行中狀態直至滿足檢查條件返回成功,或由於長時間未檢查通過而返回失敗。調度配置,詳情請參見步驟三:配置任務調度

使用限制

  • 資源群組限制

    • 支援Serverless資源群組(推薦)或舊版獨享調度資源群組運行Check節點任務。如需購買使用Serverless資源群組,詳情請參見新增和使用Serverless資源群組

  • 節點功能限制

    • 一個Check節點僅支援檢查一個對象,若您的任務依賴了多個對象(例如,某任務依賴多個MaxCompute分區表),則需建立多個Check節點分別校正相應對象。

    • Check節點的檢查時間間隔最小為1分鐘,最大為30分鐘。

  • DataWorks版本限制

    僅支援DataWorks專業版及以上版本使用Check節點。低版本DataWorks可參考版本升級說明升級。

  • 地區限制

    DataWorks目前僅支援華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)地區的工作空間使用Check節點。

前提條件

  • Check節點基於資料來源進行校正時,使用Check節點前,請先根據要檢查的物件類別建立好對應資料來源,具體如下。

    檢查物件類別

    相關準備操作

    參考文檔

    MaxCompute分區表

    1. 已建立MaxCompute資料來源並綁定至資料開發(DataStudio)。

      在DataWorks中,您需先將MaxCompute專案建立為DataWorks的MaxCompute資料來源,才可通過該資料來源訪問相應MaxCompute專案的資料。

    2. 已建立MaxCompute分區表。

    FTP檔案

    已建立FTP資料來源。

    在DataWorks中,您需先將FTP服務建立為DataWorks的FTP資料來源,才可通過該資料來源訪問相應FTP服務的資料。

    建立FTP資料來源

    OSS檔案

    已建立OSS資料來源且資料來源訪問模式為Access Key

    在DataWorks中,您需要先將OSS的Bucket建立為DataWorks的OSS資料來源,才可通過該資料來源訪問相應Bucket中的資料。

    說明

    目前僅支援在Check節點中通過Access Key模式訪問OSS資料來源,RAM角色授權模式配置的OSS資料來源無法用於Check節點

    HDFS檔案

    已建立HDFS資料來源。

    在DataWorks中,您需先將HDFS檔案建立為DataWorks的HDFS資料來源,才可通過該資料來源訪問相應HDFS檔案資料。

    建立HDFS資料來源

    OSS_HDFS檔案

    已建立OSS_HDFS資料來源。

    在DataWorks中,您需先將OSS_HDFS服務建立為DataWorks的OSS_HDFS資料來源,才可通過該資料來源訪問相應OSS_HDFS服務的資料。

    OSS-HDFS資料來源

  • Check節點基於即時同步任務進行校正時,僅支援Kafka到MaxCompute的即時同步任務。使用Check節點前,請先建立好對應即時同步任務,詳情請參見DataStudio側即時同步任務配置

步驟一:建立Check節點

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 單擊image.png表徵圖,選擇建立節點 > 通用 > Check節點

    根據介面指引,輸入節點的路徑、名稱等資訊。

步驟二:配置檢查策略

您可根據業務需要,選擇使用Check節點檢查資料來源或即時同步任務,並配置相應策略。

資料來源

配置MaxCompute分區表的檢查策略

image.png

參數說明如下。

參數

描述

資料來源類型

選擇MaxCompute。

資料來源名稱

待檢查的MaxCompute分區表所在的資料來源。

如果沒有可用的資料來源,您可單擊建立資料來源建立。建立MaxCompute資料來源,詳情請參見建立MaxCompute資料來源

表名

待檢查的MaxCompute分區表。

說明

僅支援選擇所選資料來源下的MaxCompute分區表。

分區

待檢查的MaxCompute表的分區。

配置表名參數後,您可先預覽表資訊,查看分區名稱;也可使用調度參數擷取分區名稱,調度參數的使用,詳情請參見調度參數支援的格式

Check通過條件

定義分區表的檢查方式及通過條件。您可選擇使用如下兩種方式檢查:

  • 分區存在:檢查目標資料分割是否存在。

    • 存在:此次檢查通過,平台即認為該分區表可用。

    • 不存在:此次檢查不通過,平台即認為該分區表不可用。

  • 基於LastModifiedTime校正:檢查目標資料分割資料在指定時間段內是否有更新。

    • 無更新:此次檢查通過,平台即認為該分區資料已寫入完成,分區表可用。

    • 存在更新:此次檢查不通過,平台即認為該分區資料未寫入完成,分區表不可用。

    說明
    • 僅支援選擇檢查5、10、15、20、25或30分鐘內,分區資料是否存在更新。

    • LastModifiedTime更多介紹,詳情請參見修改表的修改時間

Chcek停止策略

用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:

  • 設定停止檢查時間:可設定在目標時間長度內,每隔多長時間檢查一次(即檢查時間間隔取值)。若超過目標時間長度,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • 若上遊任務延遲,導致Check節點任務實際開始已耗用時間晚於您在此處配置的任務檢查截止時間,待上遊任務運行完成後,Check節點任務仍會啟動運行,但只會執行一次檢查操作。

  • 設定停止檢查次數:可設定在目標檢查次數內,每隔多長時間檢查一次(即檢查時間間隔)。若超過目標次數,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • Check節點任務的最大運行時間長度為24小時(即1440分鐘),最大檢查次數與檢查時間間隔有關。例如,每隔5分鐘檢查一次,最多可檢查288次;每隔10分鐘檢查一次,最多可檢查144次。具體請以實際介面為準。

配置FTP檔案的檢查策略

image

參數說明如下。

參數

描述

資料來源類型

選擇FTP。

資料來源名稱

待檢查的FTP檔案所在的資料來源。

如果沒有可用的資料來源,您可單擊建立資料來源建立。建立FTP資料來源,請參見FTP資料來源

檔案路徑

待檢查的FTP檔案路徑,例如,/var/ftp/test/

若檢查到輸入的路徑存在,則表示該路徑的同名檔案存在。

您可直接輸入路徑,也可使用調度參數擷取路徑。調度參數的使用,請參見調度參數支援的格式

Check通過條件

定義FTP檔案的檢查通過條件。

  • 若檢查到FTP檔案存在,則此次檢查通過,平台即認為該FTP檔案可用。

  • 若檢查到FTP檔案不存在,則此次檢查不通過,平台即認為該FTP檔案不可用。

Chcek停止策略

用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:

  • 設定停止檢查時間:可設定在目標時間長度內,每隔多長時間檢查一次(即檢查時間間隔取值)。若超過目標時間長度,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • 若上遊任務延遲,導致Check節點任務實際開始已耗用時間晚於您在此處配置的任務檢查截止時間,待上遊任務運行完成後,Check節點任務仍會啟動運行,但只會執行一次檢查操作。

  • 設定停止檢查次數:可設定在目標檢查次數內,每隔多長時間檢查一次(即檢查時間間隔)。若超過目標次數,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • Check節點任務的最大運行時間長度為24小時(即1440分鐘),最大檢查次數與檢查時間間隔有關。例如,每隔5分鐘檢查一次,最多可檢查288次;每隔10分鐘檢查一次,最多可檢查144次。具體請以實際介面為準。

配置OSS檔案的檢查策略

image

參數說明如下。

參數

描述

資料來源類型

選擇OSS。

資料來源名稱

待檢查的OSS檔案所在的資料來源。

如果沒有可用的資料來源,您可單擊建立資料來源建立。建立OSS資料來源,請參見OSS資料來源

檔案路徑

待檢查的OSS檔案所在路徑。您可登入Object Storage Service控制台,進入目標Bucket詳情頁,在檔案管理 > 檔案清單 > OSS檔案頁面查看。

格式遵循OSS檔案路徑的格式定義:

  • 若檔案路徑以“/”結尾,Check節點將校正OSS中與該輸入路徑同名的檔案夾是否存在。

    例如:user/,表示檢查user檔案夾是否存在。

  • 若檔案路徑不以“/”結尾,Check節點將校正OSS中與該輸入路徑同名的檔案是否存在。

    例如:user,表示檢查user檔案是否存在。

說明

選擇資料來源後,平台將預設使用資料來源中配置的Bucket。因此,路徑中無需再輸入Bucket資訊。輸入路徑後,您可單擊查看完整路徑,查看開發環境OSS資料來源的Endpoint和Bucket資訊。

Check通過條件

定義OSS檔案的檢查通過條件。

  • 若檢查到OSS檔案存在,則此次檢查通過,平台即認為該OSS檔案可用。

  • 若檢查到OSS檔案不存在,則此次檢查不通過,平台即認為該OSS檔案不可用。

Chcek停止策略

用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:

  • 設定停止檢查時間:可設定在目標時間長度內,每隔多長時間檢查一次(即檢查時間間隔取值)。若超過目標時間長度,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • 若上遊任務延遲,導致Check節點任務實際開始已耗用時間晚於您在此處配置的任務檢查截止時間,待上遊任務運行完成後,Check節點任務仍會啟動運行,但只會執行一次檢查操作。

  • 設定停止檢查次數:可設定在目標檢查次數內,每隔多長時間檢查一次(即檢查時間間隔)。若超過目標次數,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • Check節點任務的最大運行時間長度為24小時(即1440分鐘),最大檢查次數與檢查時間間隔有關。例如,每隔5分鐘檢查一次,最多可檢查288次;每隔10分鐘檢查一次,最多可檢查144次。具體請以實際介面為準。

配置HDFS檔案的檢查策略

image參數說明如下。

參數

描述

資料來源類型

選擇HDFS。

資料來源名稱

待檢查的HDFS檔案所在的資料來源。

如果沒有可用的資料來源,您可單擊建立資料來源建立。建立HDFS資料來源,請參見HDFS資料來源

檔案路徑

待檢查的HDFS檔案路徑,例如,/user/dw_test/dw

若檢查到輸入的路徑存在,則表示該路徑的同名檔案存在。

您可直接輸入路徑,也可使用調度參數擷取路徑。調度參數的使用,請參見調度參數支援的格式

Check通過條件

定義HDFS檔案的檢查通過條件。

  • 若檢查到HDFS檔案存在,則此次檢查通過,平台即認為該HDFS檔案可用。

  • 若檢查到HDFS檔案不存在,則此次檢查不通過,平台即認為該HDFS檔案不可用。

Chcek停止策略

用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:

  • 設定停止檢查時間:可設定在目標時間長度內,每隔多長時間檢查一次(即檢查時間間隔取值)。若超過目標時間長度,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • 若上遊任務延遲,導致Check節點任務實際開始已耗用時間晚於您在此處配置的任務檢查截止時間,待上遊任務運行完成後,Check節點任務仍會啟動運行,但只會執行一次檢查操作。

  • 設定停止檢查次數:可設定在目標檢查次數內,每隔多長時間檢查一次(即檢查時間間隔)。若超過目標次數,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • Check節點任務的最大運行時間長度為24小時(即1440分鐘),最大檢查次數與檢查時間間隔有關。例如,每隔5分鐘檢查一次,最多可檢查288次;每隔10分鐘檢查一次,最多可檢查144次。具體請以實際介面為準。

配置OSS_HDFS檔案的檢查策略

image參數說明如下。

參數

描述

資料來源類型

選擇OSS_HDFS。

資料來源名稱

待檢查的OSS_HDFS檔案所在的資料來源。

如果沒有可用的資料來源,您可單擊建立資料來源建立。建立OSS_HDFS資料來源,請參見OSS-HDFS資料來源

檔案路徑

待檢查的OSS_HDFS檔案路徑。您可登入Object Storage Service控制台,進入目標Bucket詳情頁,在檔案管理 > 檔案清單 > HDFS檔案頁面查看。

格式遵循OSS_HDFS檔案路徑的格式定義:

  • 若檔案路徑以/結尾,Check節點將校正OSS_HDFS中與該輸入路徑同名的檔案夾是否存在。

    例如:user/,表示檢查user檔案夾是否存在。

  • 若檔案路徑不以/結尾,Check節點將校正OSS_HDFS中與該輸入路徑同名的檔案是否存在。

    例如:user,表示檢查user檔案是否存在。

Check通過條件

定義OSS_HDFS檔案的檢查通過條件。

  • 若檢查到OSS_HDFS檔案存在,則此次檢查通過,平台即認為該OSS_HDFS檔案可用。

  • 若檢查到OSS_HDFS檔案不存在,則此次檢查不通過,平台即認為該OSS_HDFS檔案不可用。

Chcek停止策略

用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:

  • 設定停止檢查時間:可設定在目標時間長度內,每隔多長時間檢查一次(即檢查時間間隔取值)。若超過目標時間長度,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • 若上遊任務延遲,導致Check節點任務實際開始已耗用時間晚於您在此處配置的任務檢查截止時間,待上遊任務運行完成後,Check節點任務仍會啟動運行,但只會執行一次檢查操作。

  • 設定停止檢查次數:可設定在目標檢查次數內,每隔多長時間檢查一次(即檢查時間間隔)。若超過目標次數,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • Check節點任務的最大運行時間長度為24小時(即1440分鐘),最大檢查次數與檢查時間間隔有關。例如,每隔5分鐘檢查一次,最多可檢查288次;每隔10分鐘檢查一次,最多可檢查144次。具體請以實際介面為準。

即時同步任務

image

參數說明如下。

參數

描述

Check對象

選擇即時同步任務

即時同步任務

待檢查的即時同步任務。

說明
  • 目前僅支援Kafka到MaxCompute的即時同步任務。

  • 如果已有即時同步任務但無法選擇,請檢查即時同步任務是否發行至生產環境。

Chcek停止策略

用於配置Check節點任務的停止檢查策略。您可設定停止檢查時間或停止檢查次數,並支援配置檢查頻率:

  • 設定停止檢查時間:可設定在目標時間長度內,每隔多長時間檢查一次(即檢查時間間隔取值)。若超過目標時間長度,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • 若上遊任務延遲,導致Check節點任務實際開始已耗用時間晚於您在此處配置的任務檢查截止時間,待上遊任務運行完成後,Check節點任務仍會啟動運行,但只會執行一次檢查操作。

  • 設定停止檢查次數:可設定在目標檢查次數內,每隔多長時間檢查一次(即檢查時間間隔)。若超過目標次數,Check任務仍未檢查通過,則該任務將自動結束共置為失敗狀態。

    說明
    • 檢查時間間隔的取值範圍為1~30分鐘。

    • Check節點任務的最大運行時間長度為24小時(即1440分鐘),最大檢查次數與檢查時間間隔有關。例如,每隔5分鐘檢查一次,最多可檢查288次;每隔10分鐘檢查一次,最多可檢查144次。具體請以實際介面為準。

步驟三:配置任務調度

如您需要周期性使用Check節點進行分區資料檢查,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。詳情請參見任務調度屬性配置概述

Check節點與普通調度節點一樣,需設定調度依賴、調度時間等調度資訊。DataWorks上每個節點均需擁有上遊依賴,若Check節點無實際上遊依賴,您可根據空間業務複雜度選擇依賴虛擬節點或直接依賴工作空間根節點,詳情請參見虛擬節點

說明

您需設定節點的重跑屬性依賴的上遊節點,才可提交節點。

步驟四:提交發布任務

節點任務配置完成後,需執行提交發佈動作,提交發布後節點即會根據調度配置內容進行周期性運行。

  1. 單擊工具列中的儲存表徵圖,儲存節點。

  2. 單擊工具列中的提交表徵圖,提交節點任務。

    提交時需在提交對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱及煙霧測試 (Smoke Test)。

    說明
    • 您需設定節點的重跑屬性依賴的上遊節點,才可提交節點。

    • 程式碼檢閱可對任務的代碼品質進行把控,防止由於任務代碼有誤,未經審核直接發布上線後出現任務報錯。如進行程式碼檢閱,則提交的節點代碼必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱

    • 為保障調度節點任務執行符合預期,建議您在發布前對任務進行煙霧測試 (Smoke Test),詳情請參見煙霧測試 (Smoke Test)

如您使用的是標準模式的工作空間,任務提交成功後,還需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務

後續操作

Check節點提交發布至生產營運中心後,會基於節點的配置周期性運行檢查,您可通過DataWorks的營運中心查看檢查結果並進行相關營運操作,詳情請參見周期任務基本營運操作