全部產品
Search
文件中心

DataWorks:配置資料識別規則

更新時間:Jun 19, 2024

DataWorks支援通過內建敏感欄位類型和自訂敏感欄位類型,有效識別組織內的敏感性資料。本文將為您介紹如何建立、配置資料識別規則。

背景資訊

DataWorks支援您按照資料的敏感層級和所屬分類定義資料識別規則,協助您識別組織內的敏感性資料,對於識別結果不準確的資料,您可以手動修正資料,並在敏感性資料概況模組為您展示最近的通過資料識別規則命中的、按照專案細分的全部敏感欄位分布情況,資料識別規則的使用邏輯如下圖所示。邏輯圖

說明

對CDH引擎中資料進行識別和脫敏時,您需要通過DataWorks的資料抽樣採集器功能,從CDH Hive表中隨機抽取表的部分資料用於資料保護傘的敏感性資料識別,抽樣採集的資料不會儲存至DataWorks中,沒有資料泄漏風險。詳情請參見:CDH Hive資料抽樣採集器

進入資料識別規則

  1. 登入DataWorks控制台後,進入資料保護傘頁面,操作詳情請參見資料保護傘概述

  2. 單擊開始體驗,預設進入資料保護傘的首頁

  3. 單擊左側導覽列中的規則配置 > 敏感性資料識別,在資料識別規則頁面您可以新增敏感欄位類型並配置識別規則。

配置敏感欄位所屬分類

  • 如果您是首次使用資料保護傘的新使用者,進入資料識別規則頁面後會在左側地區展示資料分類分級模板的預設分類,您可以輸入分類名稱進行搜尋。還支援您單擊分類名稱後的添加表徵圖添加同層分類添加子分類重新命名刪除分類。

  • 如果您是已使用過資料保護傘的老使用者,進入資料識別規則頁面後需要您根據需求在左側地區建立資料分類。單擊未分類後的添加表徵圖添加分類。

說明
  • 分類名稱必須唯一,僅支援中英文、數字,長度限制1~30個字元。

  • 刪除時請先確認該分類下是否有發行的敏感欄位類型。如果有,請將該分類下全部敏感欄位類型下架後方可刪除。詳情請參見批量下架

添加敏感欄位類型

  1. 選擇敏感欄位所在的資料分類。

    在左側的內建分類分級模板地區選取項目新增敏感欄位所在的資料分類。

  2. 新增敏感欄位類型並配置識別規則。

    單擊右上方的+敏感欄位類型

    1. 基本資料頁簽中配置敏感欄位類型資訊,單擊下一步敏感欄位類型

      配置

      說明

      敏感欄位類型

      自訂敏感欄位類型的名稱,例如:姓名、社會安全號碼、手機號等。

      說明

      定義敏感欄位類型時,名稱必須唯一,當存在重名時系統會提示敏感欄位類型重複

      所屬分類

      下拉式清單展示步驟1選中的資料分類,如果您需要修改分類可以在下拉式清單進行選擇。

      所屬分級

      選擇敏感欄位類型所屬層級,對配置的資料進行等級劃分。如果現有的分級不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級

      描述資訊

      對當前敏感欄位進行簡單描述,長度0~100字元,不包含特殊字元。

    2. 規則配置頁簽中,配置識別規則命中條件、敏感欄位識別規則並測試規則準確性。識別規則配置完成並發布後,即可在識別任務中進行識別。配置規則

      說明

      規則修改後,歷史規則命中的欄位識別結果將被清理。

      配置

      說明

      識別規則命中條件

      您可以在右側下拉式清單中選擇識別規則命中條件:

      • 滿足以下任一條件即命中規則:滿足資料內容識別或欄位名稱識別規則其中任何一個條件,即可命中識別規則。

      • 同時滿足以下條件即命中規則:同時滿足資料內容識別和欄位名稱識別規則時才可以命中識別規則。

      說明

      識別規則命中條件僅對資料內容識別和欄位名稱識別規則生效。

      資料內容識別

      根據規則類型定義敏感性資料識別規則的內容,用於匹配敏感性資料的文本。

      說明

      資料內容識別的資訊為欄位的資料內容,例如,欄位name,包含張三、李四等資料。則識別的內容為張三、李四等具體的資料內容。

      • 規則類型選擇Regex時:在Regex文字框中手動輸入該類型的Regex,並在測試資料輸入框中輸入樣本資料測試識別規則準確性。

      • 規則類型選擇內建識別規則時:單擊請選擇內建識別規則下拉框,選擇內建識別規則,並在測試資料輸入框中輸入樣本資料測試識別規則準確性。

        說明

        僅企業版及以上版本可以選擇內建識別規則

      • 規則類型選擇樣本庫時:單擊請選擇樣本庫下拉框,選擇已配置的樣本,並在測試資料輸入框中輸入樣本資料測試識別規則準確性。樣本配置請參見通過樣本庫識別

      • 規則類型選擇自產生模型時:單擊請選擇自產生模型下拉框,選擇自產生模型,並在測試資料輸入框中輸入樣本資料測試識別規則準確性。自產生模型配置請參見通過自訂模型識別

        說明

        僅MaxCompute引擎支援選擇自產生模型規則。僅DataWorks企業版及以上才可使用自產生模型

      說明

      僅DataWorks專業版及以上版本,才可以使用內容掃描功能。如果您使用的是低版本的DataWorks,則需要升級至專業版及以上版本,才可以使用該功能。升級DataWorks版本,詳情請參見DataWorks版本服務計費說明

      欄位名稱識別

      在輸入框中輸入需要識別為敏感性資料的欄位,支援多個欄位匹配,各欄位間為或關係。輸入格式為:project.table.column,其中任一段可以使用*作為萬用字元,例如。

      • abcd.efg.*:abcd的project下efg表中所有欄位都會被識別為敏感性資料。

      • ab*.*.salary:ab開頭的project下,所有表中的salary欄位都會被識別為敏感性資料。

      • *cd.ef*.sa*ry:cd結尾的project下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。

      說明

      欄位名稱識別的資訊為欄位的名稱,例如,欄位name,包含張三、李四等資料,則識別的內容為欄位名稱name。

      欄位注釋識別

      識別的資訊為欄位注釋,如敏感欄位類型為手機號時,對應欄位注釋為:手機號、連絡方式,則可配置包含手機號、連絡方式時,識別為手機號類型。在輸入框中輸入欄位注釋,字元長度0-100,字元不限,可添加多個輸入框,最多10個。

      欄位排除

      在輸入框中輸入需要排除的欄位,符合欄位排除規則的欄位將不會被該識別規則命中。輸入格式為:project.table.column,其中任一段可以使用*作為萬用字元,例如。

      • abcd.efg.*:abcd的project下efg表中所有欄位都會被排除,不會識別為該類敏感性資料。

      • ab*.*.salary:ab開頭的project下,所有表中的salary欄位都會被排除,不會識別為該類敏感性資料。

      • *cd.ef*.sa*ry:cd結尾的project下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被排除,不會識別為該類敏感性資料。

      命中率配置

      支援您自訂識別規則命中率,當一列資料中的非空資料,超過命中閾值的資料符合資料內容識別條件時,則認為命中該識別規則。命中率預設配置為50%,命中率計算公式為:100%*該列中命中識別規則的資料條數/該列資料的總條數

      說明

      命中率僅對資料內容識別規則生效。

    3. 確認配置無誤後,您可以單擊儲存草稿將新增的敏感欄位類型狀態置為草稿,您還可以單擊發布使用,發布後,敏感欄位類型狀態置為發行,並觸發新的識別任務。

    說明

    某列資料可能會命中不同敏感欄位類型的識別規則命中條件。當這些敏感欄位類型的命中條件個數相同時,識別順序是欄位名稱識別 > 資料內容識別 > 欄位注釋識別。當命中條件的個數和類型都相同時,優先命中分級等級高的敏感欄位類型的識別規則。

完成敏感欄位類型的配置後,可在資料發現資料訪問資料風險等模組通過篩選已配置的敏感欄位類型及層級進行查看。

手動開啟敏感性資料識別任務

支援您手動觸發或停止敏感性資料識別任務,並查看敏感性資料識別任務的運行狀態及執行日誌。

image.png

  1. 單擊頁面上方的開啟任務,在右側彈出的對話方塊中配置掃描範圍,支援您掃描全量任務或自訂掃描範圍。

    任務執行中會顯示執行進度,您可以手動終止識別任務。

  2. 敏感性資料識別任務執行完成後,您可以進入任務執行記錄頁簽,查看敏感性資料識別任務的運行狀態及執行日誌。

管理敏感欄位類型

  • 複製敏感欄位類型

    單擊相應敏感欄位類型後的複製表徵圖,即可產生一個完全一致的規則。複製後的名稱加尾碼-副本,複製的規則預設狀態為草稿,您可以根據需求進行配置。

  • 編輯敏感欄位類型

    單擊相應敏感欄位類型後的編輯表徵圖,可以修改敏感欄位的規則配置。內建敏感欄位類型不可修改敏感欄位類型名稱、所屬分類、所屬分級資訊,自訂敏感欄位類型支援修改敏感欄位類型資訊。

  • 刪除敏感欄位類型

    單擊相應敏感欄位類型後的刪除表徵圖,在對話方塊中單擊刪除即可。

    重要

    刪除敏感欄位類型影響較大,請仔細閱讀以下影響後再確認是否刪除。

    • 識別結果中該敏感欄位類型的記錄將會刪除。詳情請參見手動修正資料

    • 資料發現中的敏感性資料分布資訊將不統計該敏感欄位類型。詳情請參見敏感性資料概況

    • 已配置的風險識別規則中有對應配置項的將會取消該敏感欄位類型。詳情請參見風險識別管理(舊版)

批量發布

發布對應的敏感欄位類型後,系統開始進行敏感性資料識別,識別結果請參見敏感性資料概況

  1. 單擊批量發布按鈕,勾選需要發布的敏感欄位類型

    說明

    狀態為發行的敏感欄位不可勾選。

  2. 單擊發布,對應敏感欄位類型的狀態置為發行。

  3. 點擊取消,恢複原始狀態。

發布

敏感性資料識別任務

每天早上9點會開始運行敏感性資料識別自動任務。您也可以在批量發布任務後,手動觸發敏感性資料識別任務。

  1. 在頁面頂端單擊開啟任務按鈕開發敏感性資料識別任務。

  2. 開啟敏感性資料識別任務面板裡,設定掃描範圍為全量自訂範圍

    配置

    說明

    全量

    掃描當前租戶授權帳號下全部可擷取的資料。

    自訂範圍

    • 專案空間範圍預設全部資料引擎和全部專案空間。資料引擎下拉式清單目前只能選ODPS,專案空間下拉式清單是所選資料引擎下擷取到中繼資料的所有專案空間。

    • 表名總體長度0-100,字元不限,不填寫代表全部。支援 .*萬用字元,如 .*name表示以name為尾碼,private.*表示以private為首碼,多個表名或欄位名請用英文逗號分隔。

    您可以單擊添加自訂範圍添加多個自訂掃描範圍,最多添加10個自訂範圍,最終掃描範圍取多個自訂範圍的並集。

  3. 設定完掃描範圍後,單擊開啟按鈕開啟掃描任務,任務狀態無狀態更新為任務進度條,進度計算方式為=(本次任務中已識別的表數量/本次任務中全部要識別的表數量)*100%。如果要結束任務,您可以單擊終止任務按鈕,然後在彈框中單擊確定按鈕。

    說明

    識別規則修改後,新規則將在下一次自動任務(非即時)中啟用,若需要即時觸發新任務,您需要手動啟動。

  4. 單擊查看日誌按鈕可以查看最新的50條執行日誌記錄。

  5. 掃描任務結束後,任務狀態更新為無任務

批量下架

下架對應敏感欄位類型後系統將不再進行該類敏感性資料的識別,資料發現、手動修正資料等模組中的該類敏感欄位類型的記錄將會刪除。在進行下架操作前,請確認該敏感欄位類型是否被資料脫敏規則風險識別規則引用,如果有需要先將資料脫敏規則置為失效,並取消風險識別規則中的引用。詳情請參見建立資料脫敏規則風險識別管理(舊版)

  1. 單擊批量下架按鈕,勾選需要下架的敏感欄位類型

  2. 單擊下架,單擊對應敏感欄位類型的狀態置為草稿。

  3. 點擊取消,恢複原始狀態。

下架

任務執行記錄

任務執行記錄保留近1周已完成任務的記錄,不包含當前進行中中的記錄,包括開始時間結束時間耗時任務類型責任人資料範圍