DataWorks支持将您提供的样本文件生成样本库,后续可以将样本库配置为数据识别规则用来识别数据。当需要识别的目标数据包含样本库中的数据时,则会命中该识别规则。该功能通常用于识别可以使用枚举值罗列的数据,例如,员工姓名、用户地址等。本文为您介绍如何创建并管理样本库。
使用限制
DataWorks仅支持上传大小不超过500KB,UTF-8
格式的.txt
文本文件做为样本库文件,并且样本文件中的每个数据占用一行。
一个数据识别规则仅支持识别一种类型的数据,因此,建议您的每个样本库中存放同类型的数据。如果您需要使用样本库方式识别多个类型的数据,则需要配置多个样本库。例如,您需要识别员工姓名、家庭住址,则需要配置姓名样本库及家庭住址样本库。
创建样本库
进入数据保护伞。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击左上方的图标,选择
,单击立即体验,进入数据保护伞。说明若阿里云主账号已授权,则直接进入数据保护伞的首页。
若阿里云主账号未授权,则进入数据保护伞的授权页面。授权后才可使用保护伞的相关功能。
在左侧导航栏单击
,进入敏感数据识别页面。新增样本库。
在数据样本管理页签单击新建样本。
在新增样本对话框,配置样本库名称并上传样本文件。
DataWorks仅支持上传大小不超过500KB,
UTF-8
格式的.txt
文本文件做为样本库文件,并且样本文件中的每个数据占用一行。说明一个数据识别规则仅支持识别一种类型的数据,因此,建议您的每个样本库中存放同类型的数据。如果您需要使用样本库方式识别多个类型的数据,则需要配置多个样本库。例如,您需要识别员工姓名、家庭住址,则需要配置姓名样本库及家庭住址样本库。
单击保存,完成样本库创建。
成功创建样本库后,您可以将该样本库配置为数据识别规则,当需要识别的目标数据包含样本库中的数据时,则命中该识别规则。在数据识别规则中使用样本库,详情请参见配置数据识别规则并执行识别任务。
管理样本库
在数据样本管理页面,您还可以对已创建的样本库执行如下管理操作:
查看样本库列表:您可查看所有已创建样本库包含的样本个数及关联的数据识别规则。单击目标样本库操作列的图标,即可查看该样本库的数据详情。
修改样本库文件:单击目标样本库操作列的图标,即可更换样本库已有的样本文件。
删除样本库:单击目标样本库操作列的图标,即可删除当前样本库。
说明如果目标样本库已被数据识别规则引用,您可以在样本库列表查看该样本库关联的数据识别规则,并在数据识别规则的配置页面取消引用该样本库,取消引用后该样本库才能被删除。配置数据识别规则,详情请参见配置数据识别规则并执行识别任务。