全部產品
Search
文件中心

DataWorks:資料治理中心概述

更新時間:Jun 25, 2024

資料治理中心可自動探索平台使用過程中資料存放區、任務計算、代碼開發、資料品質及安全等維度存在的問題,並通過健康分量化評估,從全域、工作空間、個人等多個視角,以治理報告及熱門排行榜呈現治理成果,協助您高效達成治理目標。同時,提供任務資源消耗明細、費用預估等功能,協助您有效控制各類資源費用。

使用限制

  • 版本限制

    目前僅支援DataWorks企業版及以上版本使用資料治理中心。DataWorks各版本介紹,詳情請參見DataWorks各版本詳解;購買DataWorks,詳情請參見購買指引

  • 地區限制

    目前僅支援華北2(北京政務雲)、華東2(上海金融雲)、華東2(上海)、華東1(杭州)、華北2(北京)、華南1(深圳)、西南1(成都)、中國(香港)、新加坡、美國(矽谷)、德國(法蘭克福)、印尼(雅加達)地區使用資料治理中心。

  • 許可權限制

    • 使用資料治理中心的使用者角色主要如下,其許可權限制如下。

      角色

      許可權說明

      相關參考

      租戶級資料治理管理員

      租戶級資料治理管理員可使用全域視角查看治理評估報告、治理項問題、檢查項事件等,執行相應的整改操作。

      空間管理員

      可使用工作空間視角查看治理評估報告。如您需使用該視角查看某工作空間的治理評估報告,需被授權為該空間的空間管理員。

      空間級資料治理管理員

      該角色可以查看並管理該角色所屬空間的資料治理相關內容。

      說明

      該角色不能通過全域視角查看當前地區所有空間下的治理情況,且無法針對全域的治理操作(例如全域允許啟用檢查項)進行管控。若要允許RAM使用者通過全域視角執行上述操作,請授予其租戶級資料治理管理員角色。

      普通使用者

      資料治理工作中實際處理待治理問題的整改人員,可使用個人視角查看檢查項事件及治理項問題,並執行整改操作。如您需整改租戶下存在的問題,則需被授權為該空間的成員。

      說明

      通常,除阿里雲主帳號和具有AliyunDataWorksFullAccess許可權的RAM使用者外,其他租戶內成員預設均為普通使用者。

      授權操作,詳情請參見增加空間成員並管理成員角色許可權

    • 目前僅支援阿里雲主帳號或具有AliyunDataWorksFullAccess許可權的RAM使用者(即子帳號)使用資料治理中心的全部功能。如您需使用資料治理中心的全部功能,則可授予RAM使用者該許可權,授權詳情,請參見為RAM使用者授權DataWorks相關系統管理權限

  • 資料來源限制

    目前僅支援MaxCompute、E-MapReduce和Hologres資料來源。

    說明
    • 如需在資料治理中心中使用Hologres資料來源,請先在資料地圖中採集Hologres中繼資料。具體操作,請參見中繼資料採集

    • 當前僅華北2(北京)、華東2(上海)、華東1(杭州)和華南1(深圳)地區的資料治理中心支援Hologres資料來源。

資料治理邏輯

資料治理問題檢測包括資料開發工作單位提交發布前的檢查項檢測,及提交發布後的治理項檢測,協助您全方位管控當前資料存在的待治理問題。當觸發檢測項後,若校正不通過,則會產生相應事件(嚴重問題將阻塞開發流程),您需通過治理中心查看並處理該事件問題,直至校正通過後,該任務才可執行後續步驟。資料治理邏輯如下圖所示。資料治理邏輯圖DataWorks的工作空間分為標準模式和簡單模式,不同模式工作空間下任務的開發流程存在一定差異。本文以標準模式工作空間的開發流程樣本。實際流程請根據您使用的工作空間模式為準。不同模式工作空間的通用開發流程,詳情請參見任務開發流程

  • 檢查項檢測。

    用於提交發布前的管控治理,主要校正規範性問題。在進行資料開發前,可通過檢查項對資料開發功能相關的約束進行檢查,當檢查出存在不符合約束規範的內容時,系統會產生影響開發流程正常執行的問題事件。您可基於該事件處理暴露的問題,以便資料開發流程可以正常執行。

  • 治理項檢測。

    用於提交發布後的管控治理。可使用資料治理中心的治理功能,通過全域視角個人視角工作空間視角,查看對應的待治理項。資料治理人員可以基於暴露的待治理項,快速發現並解決存在的問題,推進團隊內的資料治理目標。

相關概念

  • 檢查項:用於任務提交、發布等環節的事前檢查,在開發流程中檢測不符合資料規範的內容,產生影響開發流程正常執行的問題事件,約束、管理開發流程。

    例如,檢查項可以配置為禁止使用select*語句,不允許通過create table語句建立表等。

  • 檢查項事件:檢查項檢測出的影響開發流程正常執行的問題事件。

  • 治理項:用於任務提交、發布後的分析環節,檢測系統存在的待治理最佳化問題。治理項包括強治理項和可選治理項,強治理項預設全域開啟,且不可更改,可選治理項可根據需求選擇是否啟用。

    例如,治理項可以配置為任務已耗用時間超長連續出錯節點無人訪問葉子節點空跑節點等。

  • 治理項問題:治理項檢測出的待治理最佳化問題。

  • 治理方案模板:資料治理中心提供的統一模板,配置了常見的檢查項及治理項,預設為啟用狀態。您可直接使用該模板檢測問題資料,若模板的配置項無法滿足需要,則也可自訂檢查項及治理項。

  • 健康分:基於治理項,按照系統預先定義的模型計算得出,用於評估治理成效。

  • 治理單元:由一個或多個工作空間組成,用於集中統計指定工作空間的整體健康分、治理項問題和檢查項事件。

  • 知識庫:資料治理中心提供的,針對常見檢查項事件及治理項問題給出的解決方案。

資料治理流程

資料治理流程如下圖所示。治理流程

  1. 配置治理工具。

    • 啟用治理方案模板並自訂檢測項。

      細分操作

      操作目的

      操作指導連結

      啟用治理模板

      資料治理中心的整體治理操作是基於治理方案模板執行的,模板中包含了預先配置的檢查項及治理項,在治理前期,您需要開啟治理方案模板後,才能進行後續治理操作。當前僅支援使用預設範本,且該模板預設為啟用狀態。

      查看治理方案模板

      自訂檢查項

      若模板中提供的檢查項不符合您的需要,則可根據實際情況自訂檢查項。

      • 註冊檢查項。

        如果您希望對擴充程式進行檢測,則可以註冊檢測擴充程式的檢查項,註冊後,資料治理中心後續會檢測擴充程式觸發的檢查項事件。

      • 關閉檢查項。

        如果模板中包含您無需使用的檢查項,則您可以配置指定工作空間停止使用目標檢查項,停止使用後,該檢查項對目標工作空間不生效,資料治理中心後續將不會檢測目標工作空間中該檢查項觸發的檢查項事件。

      配置檢查項

      自訂治理項

      如果模板中包含您無需使用的治理項,則可設定排除規則,定義指定治理項在目標工作空間中不啟用。排除治理項後,資料治理中心將不會檢測該工作空間下對應的治理項問題。同時,在待治理列表中也不會展示該治理項問題。

      說明

      資料治理中心僅支援停用可選治理項,不支援停用強治理項,並且不支援建立治理項。

      配置治理項

    • 配置治理單元(可選)。

      DataWorks通常包含較多的工作空間,您可採用治理單元,按照業務劃分,將一個或多個目標工作空間統一管理,集中統計該單元下所有工作空間的整體健康分、治理項問題及檢查項事件。配置治理單元,詳情請參見配置治理單元

    • 配置訊息通知(可選)。

      如果您希望將待解決的治理問題通過系統訊息、郵件、DingTalk群訊息、Webhook等方式定期發送至指定人員,方便及時查看並處理,則可配置訊息通知。配置詳情,請參見配置訊息通知

  2. 啟動檢查並處理待治理問題。

    • 任務提交發布前檢測。

      通過觸發檢查項進行檢測。實現資料開發工作單位在提交發布環節,進行檢查項觸發檢測、產生檢查項事件、查看並處理檢查項事件等主要流程,操作詳情請參見處理檢查項事件

    • 任務提交發布後檢測。

      通過觸發治理項進行檢測。實現資料開發提交發布後,進行治理項觸發檢測、產生治理項問題、查看並處理治理項問題等主要流程,操作詳情請參見處理治理項問題

    • 治理工具箱專項檢查。

      您可通過治理工具箱,對目標任務或表進行全方位查看並檢測相關治理問題,精準完成任務或表的治理操作,詳情請參見全景查看任務全景查看錶

    此過程,若檢測出無效問題,則可根據需要將該類問題添加至白名單或進行下線。詳情請參見無效問題添加白名單優雅下線

  3. 選擇分析視角。

    • 基於使用情境:DataWorks提供資料生產、資料使用、資料管理等多維視角,助力您分析資料治理情況,高效進行資料治理工作。

    • 基於合理利用資源的目的:DataWorks提供消費和任務運行情況、MaxCompute表的數量及儲存情況、資源使用概況及明細,助力資料開發人員及管理者查看和分析工作空間的整體資源情況,為合理使用整體資源做輔助判斷。詳情請參見透視分析:按資源類型

  4. 查看治理成效。

    待治理問題處理完成後,您可以進入治理評估頁面,通過治理評估報告或治理熱門排行榜,從不同視角查看已執行的治理操作所取得的治理成效。您可以通過分析治理結果,快速識別治理項問題較多的維度及問題類別,推動治理工作的解決落地,達成治理目標。查看治理結果,詳情請參見查看治理結果

    資料治理中心是基於治理項,按照定義的健康分模型進行量化評估,最終通過治理評估報告及治理熱門排行榜中的健康分來體現當前所取得的治理成效,健康分越高,治理成效越好。健康分相關內容,詳情請參見量化評估:健康分

量化評估:健康分

健康分是依據資料資產在資料生產、資料流通及資料管理中的使用者行為、資料特性、任務性質等中繼資料,使用資料處理及機器學習等技術,對各類型資料進行綜合處理和評估,通過個人、工作空間維度客觀呈現資料資產狀態的綜合分值。在資料治理中,健康分體系依託不同中繼資料,建設了“儲存、計算、研發、品質和安全”等五大健康度領域,並構建“儲存健康分、計算健康分、研發健康分、品質健康分和安全健康分”五大健康分指標。健康分說明

健康分的取值範圍為0至100,分值越大表示資料資產的健康度越好,較高的健康度可以協助您更放心、高效、穩定的使用資料,保障資料生產和業務運轉。資料治理中心基於治理項,按照定義的健康分模型進行量化評估,最終通過健康分的形式來體現當前帳號的治理成效,健康分越高,治理成效越好。資料治理評估等級和健康分的對應關係如下。

等級

健康分

優秀

【90,100】

良好

【75,90)

及格

【60,75)

需改進

【30,60)

極差

【0,30)