全部產品
Search
文件中心

DataWorks:通過樣本庫識別

更新時間:Jul 12, 2024

DataWorks支援將您提供的樣本檔案產生樣本庫,後續可以將樣本庫配置為資料識別規則用來識別資料。當需要識別的目標資料包含樣本庫中的資料時,則會命中該識別規則。該功能通常用於識別可以使用枚舉值羅列的資料,例如,員工姓名、使用者地址等。本文為您介紹如何建立並管理樣本庫。

使用限制

DataWorks僅支援上傳大小不超過500KB,UTF-8格式的.txt文字檔做為樣本庫檔案,並且樣本檔案中的每個資料佔用一行。

說明

一個資料識別規則僅支援識別一種類型的資料,因此,建議您的每個樣本庫中存放同類型的資料。如果您需要使用樣本庫方式識別多個類型的資料,則需要配置多個樣本庫。例如,您需要識別員工姓名、家庭住址,則需要配置姓名樣本庫及家庭住址樣本庫。

建立樣本庫

  1. 進入資料保護傘

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料建模與開發 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

    2. 單擊左上方的表徵圖表徵圖,選擇全部產品 > 資料治理 > 資料保護傘,單擊立即體驗,進入資料保護傘。

      說明
      • 若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。

      • 若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。

  2. 在左側導覽列單擊規則配置 > 敏感性資料識別,進入敏感性資料識別頁面。

  3. 新增樣本庫。

    1. 資料樣本管理頁簽單擊建立樣本

    2. 新增樣本對話方塊,配置樣本庫名稱並上傳樣本檔案。

      DataWorks僅支援上傳大小不超過500KB,UTF-8格式的.txt文字檔做為樣本庫檔案,並且樣本檔案中的每個資料佔用一行。

      說明

      一個資料識別規則僅支援識別一種類型的資料,因此,建議您的每個樣本庫中存放同類型的資料。如果您需要使用樣本庫方式識別多個類型的資料,則需要配置多個樣本庫。例如,您需要識別員工姓名、家庭住址,則需要配置姓名樣本庫及家庭住址樣本庫。

  4. 單擊儲存,完成樣本庫建立。

成功建立樣本庫後,您可以將該樣本庫配置為資料識別規則,當需要識別的目標資料包含樣本庫中的資料時,則命中該識別規則。在資料識別規則中使用樣本庫,詳情請參見配置資料識別規則並執行識別任務

管理樣本庫

資料樣本管理頁面,您還可以對已建立的樣本庫執行如下管理操作:樣本庫管理

  • 查看樣本庫列表:您可查看所有已建立樣本庫包含的樣本個數及關聯的資料識別規則。單擊目標樣本庫操作列的查看表徵圖,即可查看該樣本庫的資料詳情。

  • 修改樣本庫檔案:單擊目標樣本庫操作列的修改表徵圖,即可更換樣本庫已有的樣本檔案。

  • 刪除樣本庫:單擊目標樣本庫操作列的刪除樣本庫表徵圖,即可刪除當前樣本庫。

    說明

    如果目標樣本庫已被資料識別規則引用,您可以在樣本庫列表查看該樣本庫關聯的資料識別規則,並在資料識別規則的配置頁面取值 (Dereference)該樣本庫,取值 (Dereference)後該樣本庫才能被刪除。配置資料識別規則,詳情請參見配置資料識別規則並執行識別任務