資料保護傘基于敏感欄位類型來配置敏感性資料識別規則,規則配置完成後,即可用於識別租戶內相應類型的敏感性資料。DataWorks為您提供了多種內建敏感欄位類型及識別規則,若內建規則不滿足您的業務需要,您也可自訂敏感欄位類型及識別規則。本文為您介紹如何建立敏感欄位類型並配置資料識別規則。
背景資訊
DataWorks支援您按照資料的敏感層級和所屬分類定義資料識別規則,協助您識別組織內的敏感性資料,對於識別結果不準確的資料,您可以手動修正資料,並在敏感性資料概況模組為您展示最近的通過資料識別規則命中的、按照專案細分的全部敏感欄位分布情況,資料識別規則的使用邏輯如下圖所示。
對CDH叢集中的資料進行識別和脫敏時,您需要通過DataWorks的資料抽樣採集器功能,從CDH Hive表中隨機抽取表的部分資料用於資料保護傘的敏感性資料識別,抽樣採集的資料不會儲存至DataWorks中,沒有資料泄漏風險。詳情請參見CDH Hive資料抽樣採集器。
進入資料識別規則頁面
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊左上方的表徵圖,選擇
,單擊立即體驗,進入資料保護傘。說明若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。
若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。
單擊左側導覽列的
,進入資料識別規則頁面。
步驟一:配置敏感欄位所屬分類
敏感欄位類型需歸屬於某個資料分類下並定義相應的敏感層級。因此,新增敏感欄位類型並配置敏感性資料識別規則前,您需先完成敏感性資料分類分級配置。
如果您是首次使用資料保護傘的新使用者,進入資料識別規則頁面後,會在左側地區展示內建分類分級模板的預設分類,您可輸入分類名稱進行搜尋;也可單擊分類名稱後的表徵圖,執行添加同級分類、添加子分類、重新命名和刪除分類等操作。
如果您是已使用過資料保護傘的老使用者,進入資料識別規則頁面後,您可在左側地區按需建立資料分類。
分類名稱必須唯一,僅支援中英文、數字,長度限制1~30個字元。
刪除分類時,請先確認該分類下是否有發行的敏感欄位識別規則。如果有,請將該分類下全部規則下架後再刪除。詳情請參見管理資料識別規則。
敏感性資料分級配置,請參見配置敏感性資料分類分級。
步驟二:配置敏感性資料識別規則
敏感性資料識別規則需基于敏感欄位類型配置,本文以新增敏感欄位類型並配置資料識別規則
樣本,介紹配置詳情。您也可基於平台內建的敏感欄位類型配置資料識別規則。
在資料識別規則頁面,單擊右上方的+敏感欄位類型,新增敏感欄位類型。
配置敏感欄位類型的基本資料。
在基本資料頁簽,配置敏感欄位的類型、分類分級等資訊。
主要參數說明如下。
參數
描述
敏感欄位類型
自訂敏感欄位類型的名稱,例如:姓名、社會安全號碼、手機號等。名稱必須唯一。
所屬分類
選擇敏感欄位類型所屬的分類。若現有分類不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級。
所屬分級
選擇敏感欄位類型所屬的層級,數字越大,敏感層級越高。若現有分級不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級。
單擊下一步。
配置敏感欄位類型的識別規則。
在規則配置頁簽,配置敏感欄位識別規則及規則的命中條件,並測試規則準確性。
參數
描述
識別規則命中條件
在右側下拉式清單中選擇識別規則的命中條件:
滿足以下任一條件即命中規則:滿足
資料內容識別
或欄位名稱識別
中的任何一個條件,即可命中識別規則。同時滿足以下條件即命中規則:需同時滿足
資料內容識別
和欄位名稱識別
的所有條件,才可命中識別規則。
說明識別規則命中條件僅對
資料內容識別
和欄位名稱識別
規則生效。資料內容識別
用於識別欄位的內容(即欄位的取值)。例如,
name
欄位取值為張三,則規則將識別張三。說明僅DataWorks專業版及以上版本,才可使用內容掃描功能。若您使用的是低版本的DataWorks,請升級至專業版及以上版本。升級詳情,請參見DataWorks版本服務計費說明。
根據規則類型定義敏感性資料識別規則的內容,用於匹配敏感性資料文本。規則類型具體如下:
欄位名稱識別
用於識別欄位的名稱。例如,
name
欄位取值為張三,則規則將識別name
。輸入需要識別為敏感性資料的欄位,支援多個欄位匹配,各欄位間為
或
關係。不同資料來源的輸入格式如下:EMR、CDH:
project.table.column
MaxCompute:
project.schema.table.column
(schema不填則預設為default)。Hologres:
instance_id.project.table.column
輸入格式中,任意一段都可使用*作為萬用字元。例如:
a.b.*:表示a專案的b表中所有欄位都會被識別為敏感性資料。
ab*.c*.salary:表示ab開頭的專案中,c開頭的表的所有salary欄位都會被識別為敏感性資料。
*cd.ef*.sa*ry :表示cd結尾的專案下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。
欄位注釋識別
用於識別欄位的注釋。例如,配置手機號類型敏感欄位對應的欄位注釋為手機號、連絡方式。當識別到某資料的注釋資訊包含連絡方式時,該資料將被識別為手機號。
在輸入框中輸入欄位注釋,字元長度0~100,字元不限,可添加多個輸入框,最多10個。
排除欄位注釋識別
在輸入框中輸入需要排除的欄位,符合欄位排除規則的欄位將不會被該識別規則命中。支援多個欄位匹配,各欄位間為
或
關係。不同資料來源的輸入格式如下:EMR、CDH:
project.table.column
MaxCompute:
project.schema.table.column
(schema不填則預設為default)。Hologres:
instance_id.project.table.column
輸入格式中,任意一段都可使用*作為萬用字元。例如:
a.b.*:表示a專案的b表中所有欄位都會被識別為敏感性資料。
ab*.c*.salary:表示ab開頭的專案中,c開頭的表的所有salary欄位都會被識別為敏感性資料。
*cd.ef*.sa*ry :表示cd結尾的專案下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。
命中率配置
用於自訂規則命中率,即配置一列資料中的非空資料,符合
資料內容識別
條件的資料佔比超過多少時(例如,50%),認為命中該識別規則。預設為50%。命中率的計算公式為:
100%*該列中命中識別規則的資料條數/該列資料的總條數
。說明命中率僅對
資料內容識別
規則生效。發布資料識別規則。
單擊發布使用,即可發布當前資料識別規則。規則發布後,才可使用該規則在識別任務中識別相應敏感性資料。
若您暫時無需使用該規則,也可單擊儲存草稿,儲存資料識別規則。
若某列資料命中多個敏感欄位類型的識別規則,規則的生效順序如下:
當這些敏感欄位類型的命中條件僅個數相同時,識別順序為
。當這些敏感欄位類型的命中條件個數和類型都相同時,優先命中分級等級高的敏感欄位類型識別規則。
步驟三:授權並啟動敏感性資料識別任務
敏感性資料識別規則配置完成後,您需要授權並啟動敏感性資料識別任務,啟動後,平台才會基于敏感資料識別規則識別租戶內的敏感性資料。
為敏感性資料識別任務授權。
單擊敏感性資料識別頁面左上方的開啟任務,按照介面指引授權。
說明敏感性資料識別任務啟動後,單擊敏感性資料識別頁面右上方的授權記錄,即可查看授權詳情。
啟動敏感性資料識別任務。
配置敏感性資料識別任務。
在開啟敏感性資料識別任務對話方塊,配置任務類型、掃描方式及範圍。
參數說明如下。
參數
描述
任務類型
選擇敏感性資料識別任務的執行類型。
自動任務:啟動任務後,平台將按照任務定義的掃描範圍及時間周期性自動執行。
手動任務:啟動任務後,平台僅根據此次任務定義的掃描範圍進行資料掃描。該類型為一次性任務,任務執行完成,則本次任務結束。
識別帳號
配置通過主帳號或某個子帳號抽樣及掃描資料。帳號的許可權不同,可抽樣及掃描的資料範圍存在差異。
內容識別
配置敏感性資料識別規則中的內容識別及中繼資料識別是否生效。勾選後,相應規則才會生效。
說明若不勾選內容識別,則資料保護傘將不會對資料進行抽樣和掃描,敏感性資料識別規則中的內容識別規則將不生效,但是欄位名稱、欄位注釋規則依然生效。
抽樣數量
配置內容識別的抽樣數量,建議數量大於100。
當勾選內容識別後,需配置該參數。
掃描頻次及掃描時間
定義自動任務的掃描周期。
僅當任務類型選擇自動任務時,需配置該參數。
掃描範圍
配置敏感性資料識別任務掃描的資料範圍。
全量:掃描當前租戶所授權帳號下的全部資料。
自訂範圍:可選擇掃描指定專案空間下的表資料。
說明專案空間範圍預設為全部資料引擎的所有專案空間。
目前僅支援選擇掃描ODPS專案的指定表的資料。
表名總長度為
0~100
,字元不限,不填代表掃描全部表。支援
.*
萬用字元。例如,.*name
表示以name
為尾碼;private.*
表示以private
為首碼。多個表名或欄位名請用英文逗號(,)分隔。
單擊添加自訂範圍,即可添加多個自訂掃描範圍,最終掃描範圍取多個自訂範圍的並集。
單擊開啟,啟動掃描任務。
啟動後,任務狀態將變更如下:
手動任務:變更為任務進度條,待進度達到100%後表示任務掃描完成。進度計算方式為=(本次任務中已識別的表數量/本次任務中全部要識別的表數量)*100%。
自動任務:變更為開啟中。到達任務配置的掃描時間後,平台將按照相關配置進行敏感性資料識別。
說明識別規則修改後,新規則將在下一次自動任務(非即時)中啟用,若需要即時觸發新任務,您需要手動啟動任務。
掃描任務結束後,任務狀態將更新為無任務。
管理資料識別規則
複製規則:若您需快速複製已有規則,可單擊表徵圖。新產生的規則名稱預設添加尾碼
-副本
,且狀態為草稿,您可按需配置。編輯規則:若您需修改規則資訊,可單擊表徵圖。
說明通過內建敏感欄位類型配置的規則,不支援修改基本資料。
規則被修改後,歷史規則命中的欄位識別結果將被清理。
刪除規則:若某規則後續無需再使用,可單擊表徵圖刪除。
重要刪除某敏感性資料類型的識別規則影響較大,請仔細閱讀以下影響後再確認是否刪除。
識別結果中該敏感欄位類型的記錄將會刪除。詳情請參見手動修正資料。
資料發現中的敏感性資料分布資訊將不統計該敏感欄位類型。詳情請參見敏感性資料概況。
已配置的風險識別規則中有對應配置項的將會取消該敏感欄位類型。詳情請參見風險識別管理(舊版)
批量發布規則:規則發布後,平台才會使用該規則識別相應敏感性資料。若規則較多,可通過批量功能發布。
在資料識別規則頁面,單擊批量發布,勾選需要發布的規則。
說明僅支援勾選草稿狀態的規則。
單擊發布。發布後,對應規則的狀態將置為發行。
說明若無需發布,可單擊取消,該敏感欄位即可恢複原始草稿狀態。
批量下架規則:下架對應規則後,平台將不再進行該類敏感性資料的識別。資料發現、手動修正資料等模組中的該類敏感欄位類型的記錄將會刪除。執行下架操作前,請確認該敏感欄位類型的識別規則是否被資料脫敏規則及風險識別規則引用,若已使用,則需先將資料脫敏規則置為失效,並取消風險識別規則中的引用。詳情請參見建立資料脫敏規則和風險識別管理(舊版)。
在資料識別規則頁面,單擊批量下架,勾選需要下架的規則。
說明僅支援勾選發行狀態的規則。
單擊下架。下架後,對應規則的狀態將置為草稿。
說明若無需下架,可單擊取消,該規則即可恢複原始發行狀態。
後續操作:查看任務執行記錄
會保留近1周已完成任務的記錄(不包含當前進行中中的記錄),您可查看任務的開始時間,結束時間,耗時,任務類型,責任人和資料範圍等詳情。