全部產品
Search
文件中心

DataWorks:建立敏感性資料識別任務

更新時間:Dec 23, 2025

本文將為您介紹如何在敏感性資料識別頁面,建立資料識別任務,對規則識別不準確的資料進行手動修正。

說明

手動修正的資料結果,在第2天才會生效展示。

建立識別任務

  1. 進入資料識別規則。詳情請參見:進入資料識別規則頁面

  2. 單擊識別任務頁簽,進入識別任務頁面。

  3. 啟動敏感性資料識別任務。

    1. 配置敏感性資料識別任務

      開啟敏感性資料識別任務對話方塊,配置任務類型、掃描方式及範圍,可配置即時任務、定時任務或手動建立識別任務。

      1. 選擇配置即時任務。

        image

        參數說明如下。

        參數

        描述

        識別帳號

        配置通過主帳號或某個子帳號抽樣及掃描資料。通過選擇的當前帳號對資料進行抽樣和掃描,帳號許可權不同,可抽樣的資料範圍會有所不同。

        說明

        通過子帳號進行識別,使用的子帳號需要先獲得MaxCompute專案空間的許可權。

        即時識別

        僅ODPS支援即時識別,當ODPS中繼資料發生變更(新增表、欄位、欄位變更),資料保護傘將針對變更的中繼資料自動啟動敏感性資料識別。

        數傘即時擷取中繼資料變更資訊。如果是新增表或欄位引起的中繼資料變更,新的表及欄位可能暫無內容,因此僅會使用中繼資料進行敏感性資料識別。

      1. 選擇配置定時任務。image參數說明如下。

        參數

        描述

        任務執行

        需手動開啟任務執行。

        後續識別任務掃描及更新策略

        含兩種選擇:

        • 僅針對發生變更的規則,以及變更規則受影響的資料及無結果資料,重新掃描並更新結果。

        • 全部資料重新掃描並結果全覆蓋。

        可勾選手動修正結果不覆蓋。

        識別帳號

        配置通過主帳號或某個子帳號抽樣及掃描資料。通過選擇的當前帳號對資料進行抽樣和掃描,帳號的許可權不同,可抽樣及掃描的資料範圍存在差異。

        說明

        通過子帳號進行抽樣及掃描,使用的子帳號需要先獲得MaxCompute專案空間的許可權。

        內容識別

        配置敏感性資料識別規則中的內容識別中繼資料識別是否生效。勾選後,相應規則才會生效。

        說明

        若不勾選內容識別,則資料保護傘將不會對資料進行抽樣和掃描,敏感性資料識別規則中的內容識別規則將不生效,但是欄位名稱、欄位注釋規則依然生效。

        抽樣數量

        配置內容識別的抽樣數量,建議數量大於100。

        當勾選內容識別後,需配置該參數。

        掃描頻次掃描時間

        定義定時任務的掃描周期。

        僅當任務類型選擇定時任務時,需配置該參數。

        掃描頻次可選一周一次一天一次。一周一次自訂範圍為周一至周五。時間範圍為0:00-23:59。

        掃描範圍

        配置敏感性資料識別任務掃描的資料範圍。

        1. 全量:掃描當前租戶所授權帳號下的全部資料。

        2. 部分資料:可選擇掃描指定專案空間下的表資料。

          說明
          1. 專案空間範圍預設為全部資料引擎的所有專案空間。

          2. 目前支援選擇掃描ODPS、EMR、HOLO專案的指定表的資料。

            1. 表名總長度為0~100,字元不限,不填代表掃描全部表。

            2. 支援.*萬用字元。例如,.*name表示以name為尾碼;private.*表示以private為首碼。

            3. 多個表名或欄位名請用英文逗號(,)分隔。

          3. 選擇部分資料,即可添加多重專案空間/資料庫掃描範圍,最終掃描範圍取多個範圍的並集。

            1. 使用者需在頁面左側手動選擇專案空間。

            2. 使用者選中專案空間後,頁面右側會展示該專案空間/資料庫範圍內的資料表,可手動勾選或一鍵全選,預設選擇該資料庫範圍內的所有資料表。

            3. 專案空間/資料庫範圍、資料表均支援關鍵字搜尋。資料表關鍵字搜尋功能,需先選擇專案空間,在指定專案空間內進行搜尋。

      2. 選擇配置手動任務,即建立識別任務。image參數說明如下。

        參數

        描述

        識別任務掃描及更新策略

        含兩種選擇:

        • 僅針對發生變更的規則,以及變更規則受影響的資料及無結果資料,重新掃描並更新結果。

        • 全部資料重新掃描並結果全覆蓋。

        可勾選手動修正結果不覆蓋。

        識別帳號

        配置通過主帳號或某個子帳號抽樣及掃描資料。通過選擇的當前帳號對資料進行抽樣和掃描,帳號的許可權不同,可抽樣及掃描的資料範圍存在差異。

        說明

        通過子帳號進行抽樣及掃描,使用的子帳號需要先獲得MaxCompute專案空間的許可權。

        內容識別

        配置敏感性資料識別規則中的內容識別中繼資料識別是否生效。勾選後,相應規則才會生效。

        說明

        若不勾選內容識別,則資料保護傘將不會對資料進行抽樣和掃描,敏感性資料識別規則中的內容識別規則將不生效,但是欄位名稱、欄位注釋規則依然生效。

        抽樣數量

        配置內容識別的抽樣數量,建議數量大於100。

        當勾選內容識別後,需配置該參數。

        掃描範圍

        配置敏感性資料識別任務掃描的資料範圍。

        1. 全量:掃描當前租戶所授權帳號下的全部資料。

        2. 部分資料:可選擇掃描指定專案空間下的表資料。

          說明
          1. 專案空間範圍預設為全部資料引擎的所有專案空間。

          2. 目前支援選擇掃描ODPS、EMR、HOLO專案的指定表的資料。

            1. 表名總長度為0~100,字元不限,不填代表掃描全部表。

            2. 支援.*萬用字元。例如,.*name表示以name為尾碼;private.*表示以private為首碼。

            3. 多個表名或欄位名請用英文逗號(,)分隔。

          3. 選擇部分資料,即可添加多重專案空間/資料庫掃描範圍,最終掃描範圍取多個範圍的並集。

            1. 使用者需在頁面左側手動選擇專案空間。

            2. 使用者選中專案空間後,頁面右側會展示該專案空間/資料庫範圍內的資料表,可手動勾選或一鍵全選,預設選擇該資料庫範圍內的所有資料表。

            3. 專案空間/資料庫範圍、資料表均支援關鍵字搜尋。資料表關鍵字搜尋功能,需先選擇專案空間,在指定專案空間內進行搜尋。

    2. 單擊開啟,啟動掃描任務。

      啟動後,任務狀態將變更如下:

      1. 即時任務:變更為開啟中。

      2. 定時任務:變更為開啟中。到達任務配置的掃描時間後,平台將按照相關配置進行敏感性資料識別。

      3. 建立識別任務:變更為任務進度條,待進度達到100%後表示任務掃描完成。進度計算方式為=(本次任務中已識別的表數量/本次任務中全部要識別的表數量) × 100%。

      說明
      1. 識別規則修改後,新規則將在下一次定時任務(非即時)中啟用,若需要即時觸發新任務,您需要手動建立識別任務。

      2. 掃描任務結束後,任務狀態將更新為無任務

手動修正識別結果

  1. 進入資料識別規則。詳情請參見:進入資料識別規則頁面

  2. 單擊識別結果頁簽,進入識別結果頁面。

  3. 手動修正識別結果不準確的資料。image

    操作

    描述

    篩選引擎類型

    在上圖的地區①,您可以通過下拉選擇資料引擎。

    說明

    目前支援對ODPS、EMR、CDH_HIVE、HOLO引擎中的敏感欄位識別結果進行修正。

    篩選

    在上圖的地區②,您可以通過篩選條件過濾需要查詢的識別結果。

    可以根據專案空間表名欄位名等條件進行篩選,還支援您單擊展開查看更多篩選條件,進一步通過分類分級敏感欄位類型等條件進行篩選。

    • 分類:當前租戶預設分類分級模板中的分類資訊。詳情請參見:配置敏感性資料分類分級

    • 分級:當前租戶預設分類分級模板中的分級資訊。

    修正單個資料

    在上圖的地區③為您展示識別結果清單,您可以單擊顯示欄位設定勾選您需要關注的欄位資訊,重新整理識別結果清單詳情。列表預設為您展示專案空間表名稱欄位名稱分類分級敏感欄位類型是否手動修正最新更新時間

    對於敏感欄位類型識別結果有誤的欄位,單擊右側敏感欄位類型列的下拉框,列表中為您展示當前租戶下預設分類分級模板中發行的敏感欄位類型。您可以查看已有的敏感欄位類型是否滿足需求:

    • 滿足需求:則選擇其他已有敏感欄位類型,並單擊右側的查看表徵圖進入資料識別規則頁面修改原敏感欄位類型對應的識別規則和修改後的敏感欄位類型對應的識別規則,以保證後續識別的準確性。

    • 不滿足需求:您可以單擊右側的查看表徵圖進入資料識別規則頁面,或滑動至下拉框底部,單擊管理敏感欄位類型,預設跳轉至資料識別規則頁面並開啟建立敏感欄位類型彈窗,新增敏感欄位類型,並配置識別規則。詳情請參見:配置資料識別規則並執行識別任務

    批量修正資料

    選中需要批量修正的欄位,單擊上圖地區④的批量修正按鈕,彈出批量修正識別結果對話方塊,敏感欄位類型下拉框列表中為您展示當前租戶下預設分類分級模板中發行的敏感欄位類型,您可以選擇正確的敏感欄位類型,單擊儲存,完成批量修正識別結果的操作。

匯出識別結果

對於系統識別有結果的資料,支援單擊匯出識別結果,將篩選條件下的識別結果匯出至本地。

  • 匯出識別結果:單擊image,自動為您匯出當前篩選條件下的識別結果。

    說明

    最多支援匯出10萬條資料。