全部产品
Search
文档中心

大数据开发治理平台 DataWorks:配置数据脱敏

更新时间:Nov 14, 2024

数据脱敏可以对实时同步的单表数据进行脱敏,然后存储到指定的数据库位置。

前提条件

配置数据脱敏节点前,您需要先配置好相应的输入节点,详情请参见实时同步支持的数据源

操作步骤

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 鼠标悬停至新建图标,单击新建节点 > 数据集成 > 实时同步

    您也可以展开业务流程,右键单击目标业务流程,选择新建节点 > 数据集成 > 实时同步

  3. 新建节点对话框中,选择同步方式为单表(Topic)到单表(Topic)ETL,输入名称,并选择路径

    重要

    节点名称必须是大小写字母、中文、数字、下划线(_)以及英文句号(.),且不能超过128个字符。

  4. 单击确认

  5. 在实时同步节点的编辑页面,鼠标单击转换 > 数据脱敏并拖拽至编辑面板,连线已配置好的输入节点。

  6. 单击数据脱敏节点,在数据脱敏对话框中,配置各项参数。

    数据过滤

    1. 新建脱敏规则:单击新建脱敏规则,在弹出来的新建脱敏规则对话框中选择需要设置的敏感数据类型脱敏规则名称脱敏方式安全域替换字符集

      1. 新建脱敏规则脱敏规则1

        1. 配置基础信息

          参数

          描述

          敏感数据类型

          • 默认为选择已有,右侧下拉框选择已创建的敏感数据类型(包括内置和所有用户创建的敏感数据类型)。

          • 可切换新增类型,右侧输入框可输入敏感数据类型名称(输入字符限制1~30字,包括:中文、英文、数字)。

            用户输入新增敏感数据类型,系统会判断文字与已有敏感数据类型名称是否相同(包括:内置和该租户下所有用户配置的敏感数据类型),如果名称相同则提示敏感字段类型重复

          说明

          内置敏感数据类型:手机号、身份证号、银行卡号、邮箱_内置、IP、车牌号、 邮政编码、座机号、MAC地址、地址、姓名、公司名、民族、星座、性别、国籍。

          脱敏规则名称

          该文本框会自动代入用户填写的敏感数据类型(输入字符限制1~30字,包括:中文、英文、数字),您也可以修改名称,当与该租户下所有用户创建的脱敏规则出现重名时,提示规则名称重复

        2. 配置脱敏方式与规则:DataWorks支持的脱敏方式包括假名哈希掩盖三种方式。

          • 假名

            假名脱敏会将一个值替换成一个具有相同特征的脱敏信息。脱敏后数据和脱敏前数据的格式保持一致。

            • 当选择的敏感数据类型为内置敏感数据类型(手机号、身份证号、银行卡号、邮箱_内置、IP、车牌号、 邮政编码、座机号、MAC地址、地址、姓名、公司名)时,用户需要配置安全域

              安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

            • 当选择的敏感数据类型为非内置时,用户需要配置替换字符集

              替换字符集:遇到字符集中的字符,即会被替换为其他相同类型的字符,不支持中文,若需要脱敏的数据不符合字符集范围则不脱敏(可输入大写字母、小写字母、和数字,多个字符请用英文逗号隔开),例如,敏感数据脱敏前是0~3的数字和a~d的字母组成,那么脱敏后也会脱敏成在这个范围内的数字和字母。

          • 哈希

            可将原始数据加密成固定长度的数据。哈希脱敏方式需要选择安全域

            安全域:可选范围0~9,不同安全域的脱敏策略规则不一致,即相同的待脱敏数据在不同的安全域脱敏出来的结果信息不一致。例如,原始数据为a123,安全域设置为0时,脱敏成b124,安全域设置为1时,脱敏成c234。原始数据相同时,如果安全域相同则脱敏后的数据也是相同的。

          • 掩盖

            掩盖脱敏是对部分信息进行掩盖,将对应位置上的字符用“*”替换,达到脱敏的效果。

            • 推荐方式:下拉框可选择只展示前1位和最后1位(默认选中)、只展示前3位和最后2位只展示前3位和最后4位

            • 自定义:自定义设置提供了更加灵活的设置方式,可以在前中后三段设置是否脱敏,以及需要脱敏(或者不脱敏)的字符长度。最多可添加10个分段,至少要有1个分段是剩余位数掩盖

              图标

              描述

              可选择位数剩余位数

              输入范围为【1,100】。

              可选择脱敏不脱敏

              例如,脱敏前3位,剩余位数不脱敏。掩盖

              例如,脱敏后3位,剩余位数不脱敏。掩盖

        3. 验证脱敏配置结果:您可以在样本数据文本框中输入脱敏前样本数据(输入字符限制0~100字符)单击脱敏验证,在脱敏效果中会返回脱敏后的数据。

      2. 单击确定,可以在脱敏规则下拉框中选择该脱敏规则,同时新建的脱敏规则会同步到数据保护伞脱敏规则页面。

    2. 单击添加条件可新增一行配置数据字段的脱敏规则。

      • 字段列下拉框中选择数据脱敏节点的上个节点的输出字段。

      • 脱敏规则列下拉框中为字段选择在数据保护伞>数据脱敏配置列表中所有已生效的脱敏规则。

      • 操作列单击编辑

        • 如果是当前用户创建的脱敏规则,在实时同步任务未提交前,可以单击编辑在弹出的编辑脱敏规则窗口修改脱敏规则,并支持输入样本数据进行脱敏验证

        • 如果是非当前用户创建的脱敏规则,单击编辑可以查看脱敏规则配置详情,并支持输入样本数据进行脱敏验证

      • 操作列单击删除可以删除一行字段。

    3. 输出字段:展示要同步的原始表中对应字段和类型。