全部產品
Search
文件中心

DataWorks:配置資料識別規則並執行識別任務

更新時間:Jul 12, 2024

資料保護傘基于敏感欄位類型來配置敏感性資料識別規則,規則配置完成後,即可用於識別租戶內相應類型的敏感性資料。DataWorks為您提供了多種內建敏感欄位類型及識別規則,若內建規則不滿足您的業務需要,您也可自訂敏感欄位類型及識別規則。本文為您介紹如何建立敏感欄位類型並配置資料識別規則。

背景資訊

DataWorks支援您按照資料的敏感層級和所屬分類定義資料識別規則,協助您識別組織內的敏感性資料,對於識別結果不準確的資料,您可以手動修正資料,並在敏感性資料概況模組為您展示最近的通過資料識別規則命中的、按照專案細分的全部敏感欄位分布情況,資料識別規則的使用邏輯如下圖所示。邏輯圖

說明

對CDH叢集中的資料進行識別和脫敏時,您需要通過DataWorks的資料抽樣採集器功能,從CDH Hive表中隨機抽取表的部分資料用於資料保護傘的敏感性資料識別,抽樣採集的資料不會儲存至DataWorks中,沒有資料泄漏風險。詳情請參見CDH Hive資料抽樣採集器

進入資料識別規則頁面

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料建模與開發 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 單擊左上方的表徵圖表徵圖,選擇全部產品 > 資料治理 > 資料保護傘,單擊立即體驗,進入資料保護傘。

    說明
    • 若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。

    • 若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。

  3. 單擊左側導覽列的規則配置 > 敏感性資料識別,進入資料識別規則頁面。

步驟一:配置敏感欄位所屬分類

敏感欄位類型需歸屬於某個資料分類下並定義相應的敏感層級。因此,新增敏感欄位類型並配置敏感性資料識別規則前,您需先完成敏感性資料分類分級配置。

  • 如果您是首次使用資料保護傘的新使用者,進入資料識別規則頁面後,會在左側地區展示內建分類分級模板的預設分類,您可輸入分類名稱進行搜尋;也可單擊分類名稱後的image表徵圖,執行添加同級分類添加子分類重新命名刪除分類等操作。

  • 如果您是已使用過資料保護傘的老使用者,進入資料識別規則頁面後,您可在左側地區按需建立資料分類。

說明
  • 分類名稱必須唯一,僅支援中英文、數字,長度限制1~30個字元。

  • 刪除分類時,請先確認該分類下是否有發行的敏感欄位識別規則。如果有,請將該分類下全部規則下架後再刪除。詳情請參見管理資料識別規則

  • 敏感性資料分級配置,請參見配置敏感性資料分類分級

步驟二:配置敏感性資料識別規則

敏感性資料識別規則需基于敏感欄位類型配置,本文以新增敏感欄位類型並配置資料識別規則樣本,介紹配置詳情。您也可基於平台內建的敏感欄位類型配置資料識別規則。

  1. 在資料識別規則頁面,單擊右上方的+敏感欄位類型,新增敏感欄位類型。

  2. 配置敏感欄位類型的基本資料。

    1. 基本資料頁簽,配置敏感欄位的類型、分類分級等資訊。敏感欄位類型

      主要參數說明如下。

      參數

      描述

      敏感欄位類型

      自訂敏感欄位類型的名稱,例如:姓名、社會安全號碼、手機號等。名稱必須唯一。

      所屬分類

      選擇敏感欄位類型所屬的分類。若現有分類不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級

      所屬分級

      選擇敏感欄位類型所屬的層級,數字越大,敏感層級越高。若現有分級不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級

    2. 單擊下一步

  3. 配置敏感欄位類型的識別規則。

    規則配置頁簽,配置敏感欄位識別規則及規則的命中條件,並測試規則準確性。配置規則

    參數

    描述

    識別規則命中條件

    在右側下拉式清單中選擇識別規則的命中條件:

    • 滿足以下任一條件即命中規則:滿足資料內容識別欄位名稱識別中的任何一個條件,即可命中識別規則。

    • 同時滿足以下條件即命中規則:需同時滿足資料內容識別欄位名稱識別的所有條件,才可命中識別規則。

    說明

    識別規則命中條件僅對資料內容識別欄位名稱識別規則生效。

    資料內容識別

    用於識別欄位的內容(即欄位的取值)。例如,name欄位取值為張三,則規則將識別張三。

    說明

    僅DataWorks專業版及以上版本,才可使用內容掃描功能。若您使用的是低版本的DataWorks,請升級至專業版及以上版本。升級詳情,請參見DataWorks版本服務計費說明

    根據規則類型定義敏感性資料識別規則的內容,用於匹配敏感性資料文本。規則類型具體如下:

    • Regex:輸入識別規則的Regex,並輸入測試資料,測試識別規則的準確性。

    • 內建識別規則:選擇所需內建識別規則,並輸入測試資料,測試識別規則的準確性。

      說明

      僅企業版及以上版本可選擇內建識別規則

    • 樣本庫:選擇已配置的規則樣本,並輸入測試資料,測試識別規則的準確性。樣本配置,請參見通過樣本庫識別

    • 自產生模型:選擇自訂的規則模型,並輸入測試資料,測試識別規則的準確性。自產生模型配置,請參見通過自訂模型識別

      說明

      僅MaxCompute引擎支援選擇自產生模型規則。僅DataWorks企業版及以上才可使用自產生模型

    欄位名稱識別

    用於識別欄位的名稱。例如,name欄位取值為張三,則規則將識別name

    輸入需要識別為敏感性資料的欄位,支援多個欄位匹配,各欄位間為關係。不同資料來源的輸入格式如下:

    • EMR、CDH:project.table.column

    • MaxCompute:project.schema.table.column(schema不填則預設為default)。

    • Hologres:instance_id.project.table.column

    輸入格式中,任意一段都可使用*作為萬用字元。例如:

    • a.b.*:表示a專案的b表中所有欄位都會被識別為敏感性資料。

    • ab*.c*.salary:表示ab開頭的專案中,c開頭的表的所有salary欄位都會被識別為敏感性資料。

    • *cd.ef*.sa*ry :表示cd結尾的專案下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。

    欄位注釋識別

    用於識別欄位的注釋。例如,配置手機號類型敏感欄位對應的欄位注釋為手機號、連絡方式。當識別到某資料的注釋資訊包含連絡方式時,該資料將被識別為手機號。

    在輸入框中輸入欄位注釋,字元長度0~100,字元不限,可添加多個輸入框,最多10個。

    排除欄位注釋識別

    在輸入框中輸入需要排除的欄位,符合欄位排除規則的欄位將不會被該識別規則命中。支援多個欄位匹配,各欄位間為關係。不同資料來源的輸入格式如下:

    • EMR、CDH:project.table.column

    • MaxCompute:project.schema.table.column(schema不填則預設為default)。

    • Hologres:instance_id.project.table.column

    輸入格式中,任意一段都可使用*作為萬用字元。例如:

    • a.b.*:表示a專案的b表中所有欄位都會被識別為敏感性資料。

    • ab*.c*.salary:表示ab開頭的專案中,c開頭的表的所有salary欄位都會被識別為敏感性資料。

    • *cd.ef*.sa*ry :表示cd結尾的專案下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。

    命中率配置

    用於自訂規則命中率,即配置一列資料中的非空資料,符合資料內容識別條件的資料佔比超過多少時(例如,50%),認為命中該識別規則。預設為50%。

    命中率的計算公式為:100%*該列中命中識別規則的資料條數/該列資料的總條數

    說明

    命中率僅對資料內容識別規則生效。

  4. 發布資料識別規則。

    單擊發布使用,即可發布當前資料識別規則。規則發布後,才可使用該規則在識別任務中識別相應敏感性資料。

說明
  • 若您暫時無需使用該規則,也可單擊儲存草稿,儲存資料識別規則。

  • 若某列資料命中多個敏感欄位類型的識別規則,規則的生效順序如下:

    • 當這些敏感欄位類型的命中條件僅個數相同時,識別順序為欄位名稱識別 > 資料內容識別 > 欄位注釋識別

    • 當這些敏感欄位類型的命中條件個數和類型都相同時,優先命中分級等級高的敏感欄位類型識別規則。

步驟三:授權並啟動敏感性資料識別任務

敏感性資料識別規則配置完成後,您需要授權並啟動敏感性資料識別任務,啟動後,平台才會基于敏感資料識別規則識別租戶內的敏感性資料。

  1. 為敏感性資料識別任務授權。

    單擊敏感性資料識別頁面左上方的開啟任務,按照介面指引授權。

    說明

    敏感性資料識別任務啟動後,單擊敏感性資料識別頁面右上方的授權記錄,即可查看授權詳情。

  2. 啟動敏感性資料識別任務。

    1. 配置敏感性資料識別任務

      開啟敏感性資料識別任務對話方塊,配置任務類型、掃描方式及範圍。

      image

      參數說明如下。

      參數

      描述

      任務類型

      選擇敏感性資料識別任務的執行類型。

      • 自動任務:啟動任務後,平台將按照任務定義的掃描範圍及時間周期性自動執行。

      • 手動任務:啟動任務後,平台僅根據此次任務定義的掃描範圍進行資料掃描。該類型為一次性任務,任務執行完成,則本次任務結束。

      識別帳號

      配置通過主帳號或某個子帳號抽樣及掃描資料。帳號的許可權不同,可抽樣及掃描的資料範圍存在差異。

      內容識別

      配置敏感性資料識別規則中的內容識別中繼資料識別是否生效。勾選後,相應規則才會生效。

      說明

      若不勾選內容識別,則資料保護傘將不會對資料進行抽樣和掃描,敏感性資料識別規則中的內容識別規則將不生效,但是欄位名稱、欄位注釋規則依然生效。

      抽樣數量

      配置內容識別的抽樣數量,建議數量大於100。

      當勾選內容識別後,需配置該參數。

      掃描頻次掃描時間

      定義自動任務的掃描周期。

      僅當任務類型選擇自動任務時,需配置該參數。

      掃描範圍

      配置敏感性資料識別任務掃描的資料範圍。

      • 全量:掃描當前租戶所授權帳號下的全部資料。

      • 自訂範圍:可選擇掃描指定專案空間下的表資料。

        說明
        • 專案空間範圍預設為全部資料引擎的所有專案空間。

        • 目前僅支援選擇掃描ODPS專案的指定表的資料。

          • 表名總長度為0~100,字元不限,不填代表掃描全部表。

          • 支援.*萬用字元。例如,.*name表示以name為尾碼;private.*表示以private為首碼。

          • 多個表名或欄位名請用英文逗號(,)分隔。

        • 單擊添加自訂範圍,即可添加多個自訂掃描範圍,最終掃描範圍取多個自訂範圍的並集。

    2. 單擊開啟,啟動掃描任務。

      啟動後,任務狀態將變更如下:

      • 手動任務:變更為任務進度條,待進度達到100%後表示任務掃描完成。進度計算方式為=(本次任務中已識別的表數量/本次任務中全部要識別的表數量)*100%。

      • 自動任務:變更為開啟中。到達任務配置的掃描時間後,平台將按照相關配置進行敏感性資料識別。

      說明
      • 識別規則修改後,新規則將在下一次自動任務(非即時)中啟用,若需要即時觸發新任務,您需要手動啟動任務。

      • 掃描任務結束後,任務狀態將更新為無任務

管理資料識別規則

  • 複製規則:若您需快速複製已有規則,可單擊複製表徵圖。新產生的規則名稱預設添加尾碼-副本,且狀態為草稿,您可按需配置。

  • 編輯規則:若您需修改規則資訊,可單擊編輯表徵圖。

    說明
    • 通過內建敏感欄位類型配置的規則,不支援修改基本資料。

    • 規則被修改後,歷史規則命中的欄位識別結果將被清理。

  • 刪除規則:若某規則後續無需再使用,可單擊刪除表徵圖刪除。

    重要

    刪除某敏感性資料類型的識別規則影響較大,請仔細閱讀以下影響後再確認是否刪除。

    • 識別結果中該敏感欄位類型的記錄將會刪除。詳情請參見手動修正資料

    • 資料發現中的敏感性資料分布資訊將不統計該敏感欄位類型。詳情請參見敏感性資料概況

    • 已配置的風險識別規則中有對應配置項的將會取消該敏感欄位類型。詳情請參見風險識別管理(舊版)

  • 批量發布規則:規則發布後,平台才會使用該規則識別相應敏感性資料。若規則較多,可通過批量功能發布。

    1. 在資料識別規則頁面,單擊批量發布,勾選需要發布的規則。

      說明

      僅支援勾選草稿狀態的規則。

    2. 單擊發布。發布後,對應規則的狀態將置為發行

      說明

      若無需發布,可單擊取消,該敏感欄位即可恢複原始草稿狀態。

  • 批量下架規則:下架對應規則後,平台將不再進行該類敏感性資料的識別。資料發現、手動修正資料等模組中的該類敏感欄位類型的記錄將會刪除。執行下架操作前,請確認該敏感欄位類型的識別規則是否被資料脫敏規則風險識別規則引用,若已使用,則需先將資料脫敏規則置為失效,並取消風險識別規則中的引用。詳情請參見建立資料脫敏規則風險識別管理(舊版)

    1. 在資料識別規則頁面,單擊批量下架,勾選需要下架的規則。

      說明

      僅支援勾選發行狀態的規則。

    2. 單擊下架。下架後,對應規則的狀態將置為草稿

      說明

      若無需下架,可單擊取消,該規則即可恢複原始發行狀態。

後續操作:查看任務執行記錄

敏感性資料識別 > 任務執行記錄會保留近1周已完成任務的記錄(不包含當前進行中中的記錄),您可查看任務的開始時間結束時間耗時任務類型責任人資料範圍等詳情。