DataWorks支援通過您提供的樣本欄位,進行模型訓練,協助您尋找目標欄位的內容特徵,產生相應的規則模型。該功能通常用於發現您的資料資產中與該特徵內容相似的資料。本文為您介紹如何產生自訂的資料識別模型。
使用限制
DataWorks不支援對資料量小於10條,並且資料長度小於4大於40的樣本欄位進行模型訓練。
DataWorks不支援對包含中文字元(包括中文標點符號)的樣本欄位進行模型訓練。
建立模型
進入資料保護傘。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊左上方的表徵圖,選擇
,單擊立即體驗,進入資料保護傘。說明若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。
若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。
在左側導覽列單擊
,進入敏感性資料識別頁面。建立模型並進行模型訓練。
在自產生資料識別模型頁簽單擊建立模型。
在建立模型對話方塊,配置模型名稱並選擇訓練樣本。
樣本欄位:您可從指定工作空間下,選擇需要訓練的樣本欄位,DataWorks將協助您找到這些欄位的內容特徵,產生相應的規則模型。後續您可使用該規則模型發現您資料資產中與該模型的特徵內容類別似的資料。
說明DataWorks不支援對資料量小於10條,並且資料長度小於4大於40的樣本欄位進行模型訓練。
DataWorks不支援對包含中文字元(包括中文標點符號)的樣本欄位進行模型訓練。
排除欄位:如果某些欄位容易與樣本欄位混淆,則您可在該規則模型中將其排除,排除後,使用該規則模型識別資料時,排除的欄位將不會命中。同時,排除的欄位將作為負向樣本加入模型訓練,以達到不命中混淆資料,提高識別準確率的效果。
單擊下一步。
勾選我接受資料保護傘抽樣用於模型訓練,單擊開始訓練,啟動模型訓練。
本次模型訓練將從您選的樣本欄位中各隨機抽取不超過100條資料進行訓練,並根據您的樣本欄位數量估算耗時。
說明模型訓練時間較長,請您等待。等待過程中,您也可以關閉訓練彈窗,操作其他功能,模型將在後台自動運行訓練。
查看模型訓練結果。
在自產生資料識別模型頁面,您可查看目標模型的訓練狀態及訓練結果,並根據訓練結果判斷該模型是否符合上線使用標準,用於識別資料。
查看訓練狀態。
剩餘hh:mm:ss:表示當前模型正在訓練中。
訓練完成:表示當前模型已完成訓練,您可以根據訓練結果,判斷該模型後續是否可用於識別資料。
草稿:表示該模型已建立,但未進行訓練,不能投入識別資料。
查看訓練結果。
單擊訓練完成的模型操作列的表徵圖,即可查看通過該模型提取的樣本特徵對範例資料識別的準確率。建議當準確率為100%時,再投入上線使用該模型。
說明如果模型訓練的評估結果準確率達不到100%,則投入上線使用識別的資料可能會有較大誤差。建議您增加樣本資料,重新訓練模型,直至準確率達到100%後再投入上線使用。
單擊確定建立,完成當前規則模型的建立。
後續步驟
成功建立規則模型後,您可以進入資料識別規則頁面,上線使用當前模型來識別資料。在資料識別規則中使用自訂的模型識別資料,詳情請參見配置資料識別規則並執行識別任務。