全部產品
Search
文件中心

DataWorks:建立資料脫敏規則

更新時間:Jul 04, 2024

DataWorks支援多種脫敏情境,您需根據需要選擇合適情境建立相應資料脫敏規則。本文為您介紹如何建立脫敏規則,並在DataWorks中進行脫敏查詢。

背景資訊

DataWorks的脫敏情境分為靜態脫敏和動態脫敏:

  • 動態脫敏:包括資料開發/資料地圖展示脫敏資料分析展示脫敏MaxCompute引擎層脫敏Hologres引擎層脫敏等情境。

  • 靜態脫敏:指Data Integration靜態脫敏情境。

脫敏規則建立後預設為不生效的狀態,您需將脫敏規則設定為生效,後續對應脫敏情境下才會根據規則對資料自動脫敏。

說明

前提條件

  • (可選,僅動態脫敏需要)已根據業務需要配置好敏感性資料識別規則,便於後續建立資料脫敏規則時關聯需要應用脫敏的欄位,操作詳情請參見敏感性資料識別規則

  • (可選,僅動態脫敏需要)如果您希望通過白名單控制部分使用者在指定時間段內不受脫敏規則影響,可查看未脫敏資料,您需要提前將白名單使用者添加為使用者組,操作詳情請參見配置使用者組

  • (可選,僅MaxCompute引擎層脫敏需要)如果您需要配置的脫敏情境為MaxCompute引擎層脫敏,即除DataWorks入口外,使用MaxCompute命令列/用戶端(odpscmd)、Logview入口等查詢資料時,對敏感性資料根據脫敏規則進行脫敏,您需要申請MaxCompute的網路白名單,便於調用脫敏函數進行脫敏,詳情請參見實踐樣本:MaxCompute底層脫敏使用方法

許可權控制

  • 配置脫敏規則(新增、編輯、刪除):

    • 租用戶系統管理員租戶安全性系統管理員可選擇基於所有脫敏情境執行相關脫敏規則操作。

    • 空間管理員空間安全性系統管理員僅支援選擇自己有許可權的脫敏情境執行相關脫敏規則操作。

  • 配置脫敏白名單(新增、編輯、刪除):

    • 租用戶系統管理員、租戶安全性系統管理員可選擇基於所有脫敏情境執行白名單配置操作。

    • 空間管理員空間安全性系統管理員僅支援選擇自己有許可權的脫敏情境執行相關白名單配置操作。

如您需執行相關操作,則可被授予相關角色許可權。授權詳情,請參見空間級模組許可權管控全域級模組許可權控制

脫敏規則配置入口

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料建模與開發 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 單擊左上方的表徵圖表徵圖,選擇全部產品 > 資料治理 > 資料保護傘,單擊立即體驗,進入資料保護傘。

    說明
    • 若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。

    • 若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。

  3. 在左側導覽列,單擊規則配置 > 資料脫敏管理,進入資料脫敏管理頁面。

  4. 在左側選擇指定脫敏情境後,單擊右側的+脫敏規則,基於該情境建立脫敏規則。

建立動態脫敏規則:資料開發/資料地圖展示脫敏情境

  1. 選擇脫敏情境。

    資料脫敏管理頁面,選擇脫敏情境資料開發/資料地圖展示脫敏 > 預設情境,單擊右側+脫敏規則

  2. 建立資料脫敏規則。

    1. 建立脫敏規則對話方塊中,配置脫敏規則資訊。建立脫敏規則

      1. 選擇敏感欄位並配置規則名稱。

        參數

        描述

        敏感欄位類型

        選擇當前脫敏規則需要脫敏的欄位。

        • 支援選擇系統內建的敏感欄位及在敏感性資料識別中手動添加的敏感欄位。手動添加敏感欄位,詳情請參見敏感性資料識別規則

        • 若您之前已建立過相同情境的脫敏規則,DataWorks會過濾掉已被選擇的敏感欄位類型,避免同情境下對於同敏感欄位的脫敏規則不一致。

        脫敏規則名稱

        預設填寫為所選的敏感欄位類型,您也可自訂規則名稱。規則名稱必須唯一。

      2. 配置脫敏情境。

        選擇該脫敏規則適用的脫敏情境。預設為步驟一所選的脫敏情境,您也可根據需要更改或添加多個情境。

      3. 配置脫敏方式。

        DataWorks支援保留格式加密掩蓋HASH加密字元替換區間變換取整置空等脫敏方式,您可根據需要選擇。

        保留格式加密(原假名脫敏演算法)

        保留格式加密脫敏會將一個值替換成一個具有相同特徵的脫敏資訊。脫敏後資料和脫敏前資料的格式保持一致。涉及的脫敏規則配置參數如下。

        參數

        說明

        資料浮水印

        資料浮水印可提供資料溯源能力,發生資料泄露後,可幫您定位到可能的泄露源。您可根據需求選擇是否開啟資料浮水印

        說明

        僅DataWork企業版及以上版本支援使用資料浮水印功能。

        脫敏特徵值

        不同脫敏特徵值的脫敏策略規則不同,即相同的待脫敏資料在不同的脫敏特徵值脫敏出來的結果資訊不同。若脫敏特徵值相同則脫敏後的資料也是相同的。

        例如,未經處理資料為a123:

        • 脫敏特徵值設定為0時,脫敏成b124。

        • 脫敏特徵值設定為1時,脫敏成c234。

        脫敏特徵值的預設值為5,可選範圍0~9。

        (可選)替換字元集

        當選擇的敏感欄位類型的識別規則為非內建時,您需要配置替換字元集。配置替換字元集後,後續遇到字元集中的字元,即會被替換為其他相同類型的字元。

        例如,敏感性資料脫敏前是0~3的數字和a~d的字母組成,則脫敏後也會脫敏成在這個範圍內的數字和字母。

        說明

        若需要脫敏的資料不符合字元集範圍則不進行脫敏。

        掩蓋

        掩蓋脫敏是對部分資訊進行掩蓋,將對應位置上的字元用“*”替換,達到脫敏的效果。使用掩蓋方式進行脫敏時需選擇掩蓋脫敏的方式,當前DataWorks為您內建了一些掩蓋脫敏方式,也支援您自訂。

        參數

        說明

        推薦方式

        在下拉框選擇推薦的掩蓋脫敏方式,對於不同的脫敏欄位可選擇的掩蓋方式不一致。

        例如,只展示前1位和最後1位只展示前3位和最後2位只展示前3位和最後4位等,您可根據介面下拉框提示進行選擇。

        自訂

        自訂提供了更加靈活的設定方式,按從左至右順序配置分段是否脫敏,以及需要脫敏(或者不脫敏)的字元長度。最多可添加10個分段,必須要有且僅有1個分段是剩餘位元

        例如,脫敏前3位,剩餘位元不脫敏。例子

        HASH加密

        使用HASH加密進行資料脫敏時,您需配置以下脫敏規則參數。

        參數

        說明

        資料浮水印

        資料浮水印可提供資料溯源能力,發生資料泄露後,可幫您定位到可能的泄露源。您可根據需求選擇是否開啟資料浮水印

        說明

        僅DataWork企業版及以上版本支援使用資料浮水印功能。

        密碼編譯演算法

        包括MD5、SHA256、SHA512、SM3。

        加鹽值

        設定各密碼編譯演算法的鹽值。預設選中5,可填值為0~9。

        說明

        鹽值即插入的特定字串。在密碼學中,通過在密碼任意固定位置插入特定的字串,讓散列後的結果和使用原始密碼的散列結果不相符,這種過程稱之為加鹽。

        字元替換

        字元替換的方式即是將指定位置的字元按照您選擇的替換方式進行替換。涉及的脫敏規則配置參數如下。

        參數

        說明

        替換位置

        在下拉框可選擇替換全部替換前3位替換後4位,同時支援您自訂替換位置。

        替換位置選擇自訂時,使用者可以自訂分段,並配置每個分段如何替換字元,最多可添加10個分段,必須要有且僅有1個分段是剩餘位元自訂

        替換方式

        包括隨機替換樣本值替換固定值替換

        • 隨機替換:隨機替換對應位置上的字元,替換前後字元位元不變。

        • 樣本值替換:您需要選擇指定樣本庫,選擇後用樣本庫中的值替換對應位置上的字元。

        • 固定值替換:您需要在替換值文字框中輸入字元(字元不限,長度1~100,不可包含Null 字元),輸入後用該替換值替換對應位置上的字元。

        區間替換

        區間變換僅適用對數實值型別的資料進行脫敏。可將指定數值範圍內的資料脫敏為固定的值,可添加多個區間範圍,至少1個,至多10個。

        參數

        說明

        原始數值範圍 [m,n)

        脫敏前資料的數值範圍,有效值為大於等於0的數值,最多支援小數點後2位。

        數值脫敏後數值

        脫敏之後的值,有效值為大於等於0的數值,最多支援小數點後2位。

        取整

        參數

        說明

        未經處理資料類型

        僅支援選擇數實值型別。

        保留小數點位元

        有效值範圍為0~5,剩餘部分四捨五入。例如,原始數值3.1415,保留小數點位元2位,脫敏後為3.14。

        置空

        置空脫敏時,對應的敏感欄位置為空白字串。

    2. 驗證脫敏結果。

      您可在樣本資料文字框中輸入脫敏前樣本資料(輸入字元限制0~100字元),單擊驗證,在脫敏效果中會返回脫敏後的資料。

    3. 單擊儲存儲存並生效,完成脫敏規則的建立。

建立完成脫敏規則後:

  • 動態脫敏情境下,您可設定脫敏規則生效的白名單,後續在指定時間範圍內,白名單使用者可查詢未脫敏的資料,白名單添加操作詳情請參見配置脫敏規則白名單(僅動態脫敏支援)

  • 剛建立完成的脫敏規則預設狀態為不生效,您需要設定狀態為生效後,脫敏規則才會在後續對應脫敏情境中被應用,設定狀態操作詳情請參見配置脫敏規則生效或失效

建立靜態脫敏規則:Data Integration靜態脫敏情境

  1. 資料脫敏管理頁面,選擇脫敏情境Data Integration靜態脫敏 > 預設情境,單擊右側+脫敏規則

  2. 建立資料脫敏規則。

    1. 建立脫敏規則對話方塊中,配置規則資訊。

      脫敏規則

      1. 選擇敏感性資料類型並配置規則名稱。

        參數

        描述

        敏感性資料類型

        • 選擇已有:根據需要選擇已建立的敏感性資料類型(包括內建和自訂的敏感性資料類型)。

        • 新增類型:輸入敏感性資料類型名稱,名稱必須唯一。

        說明

        內建敏感性資料類型包括:手機號、社會安全號碼、銀行卡號、郵箱_內建、IP、車牌號、 郵遞區號、有線電話號、MAC地址、地址、姓名、公司名、民族、星座、性別、國籍。

        脫敏規則名稱

        預設填寫為所選的敏感性資料類型,您也可自訂規則名稱。規則名稱必須唯一。

      2. 配置脫敏方式。

        DataWorks支援假名雜湊掩蓋三種脫敏方式,您可根據需要選擇。

        假名

        假名脫敏會將一個值替換成一個具有相同特徵的脫敏資訊。脫敏後資料和脫敏前資料的格式保持一致。

        • 當選擇的敏感性資料類型為內建敏感性資料類型(手機號、社會安全號碼、銀行卡號、郵箱_內建、IP、車牌號、 郵遞區號、有線電話號、MAC地址、地址、姓名、公司名)時,使用者需要配置安全域

          安全域:可選範圍0~9,不同安全域的脫敏策略規則不一致,即相同的待脫敏資料在不同的安全域脫敏出來的結果資訊不一致。例如,未經處理資料為a123,安全網域設定為0時,脫敏成b124,安全網域設定為1時,脫敏成c234。未經處理資料相同時,如果安全域相同則脫敏後的資料也是相同的。

        • 當選擇的敏感性資料類型為非內建時,使用者需要配置替換字元集

          替換字元集:遇到字元集中的字元,即會被替換為其他相同類型的字元,不支援中文,若需要脫敏的資料不符合字元集範圍則不脫敏(可輸入大寫字母、小寫字母、和數字,多個字元請用英文逗號隔開),例如,敏感性資料脫敏前是0~3的數字和a~d的字母組成,那麼脫敏後也會脫敏成在這個範圍內的數字和字母。

        雜湊

        可將未經處理資料加密成固定長度的資料。HASH脫敏方式需要選擇安全域

        安全域:可選範圍0~9,不同安全域的脫敏策略規則不一致,即相同的待脫敏資料在不同的安全域脫敏出來的結果資訊不一致,如果安全域相同則脫敏後的資料也是相同的。

        例如,未經處理資料為a123:

        • 安全網域設定為0時,脫敏成b124。

        • 安全網域設定為1時,脫敏成c234。

        掩蓋

        掩蓋脫敏是對部分資訊進行掩蓋,將對應位置上的字元用“*”替換,達到脫敏的效果。

        • 推薦方式:下拉框可選擇只展示前1位和最後1位只展示前3位和最後2位只展示前3位和最後4位

        • 自訂:自訂提供了更加靈活的設定方式,按從左至右順序配置分段是否脫敏,以及需要脫敏(或者不脫敏)的字元長度。最多可添加10個分段,必須要有且僅有1個分段是剩餘位元

          • 樣本一:脫敏前3位,剩餘位元不脫敏。掩蓋1

          • 樣本二:脫敏後3位,剩餘位元不脫敏。掩蓋2

    2. 驗證脫敏結果。

      您可在樣本資料文字框中輸入脫敏前樣本資料(輸入字元限制0~100字元),單擊脫敏驗證,在脫敏效果中會返回脫敏後的資料。

    3. 單擊確定,完成脫敏規則的建立。

建立完成脫敏規則後:

  • 剛建立完成的脫敏規則預設狀態為不生效,您需要設定狀態為生效後,脫敏規則才會在後續對應脫敏情境中被應用,設定狀態操作詳情請參見配置脫敏規則生效或失效

  • 建立Data Integration脫敏規則後,您可以在建立即時同步單表資料任務的時候使用該脫敏規則。詳情請參見配置資料脫敏

配置脫敏規則白名單(僅動態脫敏支援)

對於動態脫敏情境的脫敏規則,您可設定脫敏規則的白名單使用者,後續在脫敏規則生效後,白名單使用者的脫敏規則在指定時間內不生效,即可獲得未脫敏的資料。

說明

建立白名單前,您需先將待添加至白名單的使用者添加至一個使用者組。配置使用者組,詳情請參見配置使用者組

新增白名單的操作如下:

  1. 資料脫敏管理頁面,單擊白名單配置

  2. 單擊右上方的+白名單

  3. 建立白名單對話方塊中,配置相關資訊。

    說明
    • Hologres引擎層脫敏、Data Integration靜態脫敏情境不支援配置白名單。

    • 設定白名單生效時間後,對於符合白名單條件的敏感性資料,將在指定有效期間內不進行脫敏處理。

    配置白名單

    參數配置如下。

    參數

    描述

    敏感欄位類型

    僅支援選擇所選脫敏情境下的敏感欄位類型。

    使用者組範圍

    選擇已配置的使用者組,最多可選50個使用者組。添加使用者組至白名單後,使用者組內的帳號擷取到的資料為脫敏前的未經處理資料。配置使用者組,詳情請參見配置使用者組

    生效時間

    根據需要設定白名單的生效時間。設定後,如果不在白名單脫敏時間的區間內,該使用者在查詢該敏感資訊時將會繼續脫敏。

    說明

    設定為短期後,表示從目前時間開始到指定天數內的資料將不進行脫敏。

  4. 單擊儲存,完成白名單配置。

配置脫敏規則生效或失效

資料脫敏規則頁面,單擊對應脫敏規則列表中的狀態開關,即可設定脫敏策略的狀態為生效失效

設定成功後,你可對相應脫敏規則執行編輯、刪除、查詢詳情等操作。

說明
  • 生效的規則不允許執行刪除編輯的操作。您需先將規則失效,失效時判斷是否有相關任務使用到該規則,請聯絡安全性系統管理員二次確認。

  • 失效狀態下您可修改脫敏方式,但是敏感性資料類型脫敏規則名稱不可修改。

  • 修改完成後開啟生效,配置該脫敏規則的任務可繼續脫敏。

脫敏規則應用樣本