全部產品
Search
文件中心

:配置樣本:MaxCompute

更新時間:Jun 19, 2024

監控規則是資料品質(DQC)的核心。資料品質支援EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute、CDH Hive監控,本文為您介紹如何配置MaxCompute監控。

新增MaxCompute資料來源

  1. 進入資料來源頁面。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。

  2. 單擊右上方的新增資料來源添加MaxCompute資料來源,詳情請參見配置MaxCompute資料來源

選擇資料來源

  1. 單擊當前頁面左上方的表徵圖表徵圖,選擇全部產品 > 資料治理 > 資料品質

  2. 在左側導覽列,單擊規則管理 > 按表配置

  3. 選擇引擎/資料來源MaxCompute,顯示當前資料來源下所有的表。

    您也可以輸入目標表名(支援表名首字母模糊搜尋),尋找對應的表。

  4. 單擊相應表後的配置監控規則

配置分區運算式

資料品質通過分區運算式來確定需要配置的規則:

  • 如果您的檢查對象為非分區表,可以配置分區運算式為NOTAPARTITIONTABLE

  • 如果您的檢查對象為分區表,可以配置為業務日期的運算式(例如$[yyyymmdd-1])。

說明

資料品質規則中,分區運算式不支援使用大括弧相關格式。例如,${yyyymmdd-1}。

在資料表的監控規則頁面,單擊分區運算式後的+,添加分區運算式。添加分區運算式

您可以選擇建立分區運算式,也可以選擇推薦的分區運算式:

  • 建立分區的運算式

    添加分區對話方塊中,您可以根據自身需求編輯符合文法的分區運算式。非分區表可以直接選擇推薦的分區運算式中的NOTAPARTITIONTABLE

    • 一級分區的運算式格式:分區名=分區值,分區值可以是固定值,也可以是內建參數運算式。分區表必須配置到最後一級分區。

    • 多級分區運算式格式:1級分區名=分區值/2級分區名=分區值/N級分區名=分區值,分區值可以是固定值,也可以是內建參數運算式。參數必須使用中括弧表示,例如$[yyyymmdd-N]

    分區運算式周期由配置的業務日期決定,例如配置已耗用時間為前5天,則周期為每5天調度一次。支援的分區運算式如下表所示。

    分區運算式

    描述

    dt=$[yyyymmdd-N]

    代表前N天

    dt=$[hh24miss-1/24]

    代表一個小時前

    dt=$[hh24miss-30/24/60]

    代表半個小時前

    dt=$[add_months(yyyymmdd,-1)]

    代表擷取上個月今天的日期。精確到天。

    $[yyyymmdd]

    調度日期

    $[yyyymmdd-1]

    代表擷取業務日期。

    $[yyyymmddhh24miss]

    格式為yyyymmddhh24miss,當前執行個體啟動並執行業務日期:

    • yyyy表示4位元年份

    • mm表示2位元月份

    • dd表示2位元天

    • hh24表示24小時制的時

    • mi表示2位元分鐘

    • ss表示2位元秒

    NOTAPARTITIONTABLE

    非分區表可以選擇該分區運算式

  • 推薦的分區運算式

    下文將以分區名dt為例,為您介紹推薦的分區運算式。

    1. 添加分區對話方塊中,單擊輸入運算式的視窗,會顯示資料品質為您推薦的分區運算式:

      • 如果有符合預期的運算式,單擊該行,會自動同步至輸出視窗。

      • 如果沒有滿足需求的分區運算式,您可以根據需求自己輸入。

    2. 輸入分區運算式後,單擊計算。資料品質會按照目前時間(調度時間)計算出分區運算式的計算結果,以便驗證分區運算式的正確性。計算

    3. 單擊確認

如果您有不需要的分區運算式,可以單擊相應分區運算式後的刪除。如果該分區運算式已經配置有規則,刪除時會刪除該運算式下的所有規則。

配置關聯調度

如果您需要在生產鏈路上監控離線資料品質,需要將資料品質規則與產出表資料的調度節點進行關聯:

  • 產出表資料的調度節點必鬚髮布後才可以關聯調度。

  • 關聯前,請確保您在關聯的兩個工作空間中,同時擁有管理員開發營運中至少一個角色。

資料品質的關聯調度可以關聯單個或多個節點任務,關聯調度完成後,離線資料品質監控任務可以自動運行。

說明

資料品質的關聯可以靈活配置,您關聯的任務並非一定與您的表有關係。

  1. 在相應表的監控規則頁面,單擊關聯調度,配置規則與任務的綁定關係。

    關聯調度

  2. 關聯調度對話方塊中,輸入您需要關聯的任務節點名稱。

    配置品質監控

  3. 單擊添加

建立規則

建立規則是資料品質模組的核心內容,您可以根據表的實際需要建立規則。

目前建立規則的方式包括模板規則自訂規則,您可以根據自身需求選擇相應方式。兩種規則又分為添加監控規則快捷添加兩部分,詳情請參見配置規則:按表(單表)

建立完成後單擊批量儲存,即可將建立的所有規則儲存到已建好的分區運算式。

添加方式

參數

描述

添加監控規則

規則名稱

輸入規則名稱。

強弱

配置規則的強弱:

  • 勾選時,如果觸發紅色閾值,則警示且任務置為失敗狀態。如果觸發橙色閾值,則警示且任務置為成功狀態。

  • 勾選時,如果觸發紅色閾值,則警示且任務置為成功狀態。如果觸發橙色閾值,則不警示且任務置為成功狀態。

動態閾值

您無需手動設定閾值,系統會自動根據演算法模型即時檢測指標的正確性。如果超出合理的波動範圍,便進行警示。

重要

您需要購買DataWorks企業版及以上版本,才可以使用動態閾值功能。

規則來源

包括內建模板規則模板庫

規則欄位

包括表級規則欄位級規則。欄位級規則可以針對錶中的具體欄位配置監控規則。

說明

此處選擇為表級規則,頁面中的其它設定項對應為表級規則配置項。

規則模板

  • 如果您選擇規則來源內建模板,為您展示系統內建的表級監控規則。

  • 如果您選擇規則來源規則模板庫,需要設定採樣方式Set Flag等參數,詳情請參見建立並管理自訂規則模板

比較方式

包括絕對值上升下降三種類型。

波動值比較

設定波動值的橙色閾值和紅色閾值。您可以通過拖動進度條來設定,也可以直接輸入閾值。

描述

對配置的規則進行簡單描述。

快捷添加

規則名稱

輸入規則名稱。

規則欄位

包括表級規則和欄位級規則。欄位級規則可以針對錶中具體欄位進行配置監控規則。

快捷規則

  • 選擇表級規則,快捷規則支援錶行數大於0錶行數動態閾值

    重要

    您需要購買DataWorks企業版及以上版本,才可以使用動態閾值功能。

  • 選擇欄位級規則,快捷規則可以選擇欄位重複值欄位空值唯一值動態閾值

    重要

    您需要購買DataWorks企業版及以上版本,才可以使用動態閾值功能。

試跑規則

成功配置規則後,您可以針對某個分區運算式下的所有規則進行試跑,並查看試跑的校正結果。

說明

通過試跑,您可以測試規則配置的正確性、測試訂閱發送渠道。試跑是手動運行監控規則的一種方式,您可以根據自身需求選擇是否進行試跑。

  1. 在相應表的監控規則頁面,單擊試跑

  2. 試跑對話方塊中,選擇調度日期

    參數

    描述

    試跑分區

    實際分區會隨著業務日期變化而改變。如果為NOTAPARTITIONTABLE,則會自動添加實際分區。

    調度時間

    選擇需要試跑的調度日期,預設為目前時間。

  3. 單擊試跑

  4. 單擊試跑成功,點擊查看試跑結果,進入任務查詢頁面,查看校正結果。詳情請參見查看監控任務

進行訂閱管理

訂閱管理預設通知建立者,如果想通知其它使用者,您可以手動添加。

  1. 在相應表的監控規則頁面,單擊訂閱管理

  2. 訂閱管理對話方塊中,選擇相應的訂閱者式

    訂閱者式包括郵件通知郵件和簡訊通知DingTalk群機器人DingTalk群機器人@ALL飛書群機器人企業微信機器人自訂Webhook

    說明
    • 添加DingTalk群、飛書群和企業微信機器人擷取Webhook地址後,複製Webhook地址至訂閱管理中即可。

    • 僅DataWorks企業版版本支援使用自訂Webhook方式,DataWorks推送自訂Webhook的警示資訊的訊息格式請參見:附錄:Webhook訊息格式

  3. 單擊儲存

查看分區動作記錄

在相應表的監控規則頁面,單擊分區動作記錄。您可以在動作記錄對話方塊中查看操作人操作時間操作內容

操作內容顯示當前分區運算式設定的所有規則。

查看上一次校檢結果

在相應表的監控規則頁面,單擊上一次校檢結果,進入任務查詢頁面。您可以查看當前分區運算式下的運行結果情況和歷史結果。

複製規則

  1. 在相應表的監控規則頁面,單擊複製規則

  2. 複製規則對話方塊中,選擇目標運算式

  3. 根據自身需求選中同步訂閱人替換自訂SQL規則中的表名

  4. 單擊執行複製