全部产品
Search
文档中心

大数据开发治理平台 DataWorks:数据保护伞概述

更新时间:Nov 22, 2024

数据保护伞是一款数据安全管理产品,为您提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等多种功能,帮助您快速梳理敏感数据并进行安全管控,保障数据安全。本文为您介绍数据保护伞的使用流程、使用限制等内容。

使用流程

数据保护伞为您提供敏感数据规则配置、识别敏感数据、查看识别结果、处理敏感数据等管控流程,帮助您在敏感数据产生的事件前、中、后各阶段管控梳理项目中的敏感数据,保障数据安全。具体流程及相关功能介绍如下。

image
  1. 步骤一:事前梳理。

    在敏感数据产生前,您可通过数据保护伞对您的资产数据进行分类分级,并配置多种识别规则,识别敏感数据及相关数据风险。具体如下。

    细分操作

    描述

    参考文档

    配置数据分类分级

    用于对您的数据按照数据价值、内容敏感程度、影响和分发范围进行敏感级别划分,后续可基于分类分级进行数据管控操作。不同敏感级别的数据管控原则和数据开发要求存在差异。

    DataWorks提供了内置的分类分级模板,您也可基于业务需要,自定义分类分级名称。

    配置敏感数据分类分级

    配置敏感数据识别规则

    根据数据的来源、用途,定义敏感字段类型配置敏感数据规则,识别当前工作空间中的敏感数据。命中规则内容,则认为是敏感数据。

    支持如下识别方式:

    • 数据内容识别:可通过内置规则、自定义模型、样本库、正则表达式识别。

    • 元数据识别:通过字段的名称、注释信息识别。支持使用通配符,配置前缀、后缀及包含关系。

    • 组合识别:可使用或、与等关系,配置包含多个条件的识别规则。

    其他配置

    • 系统配置:设置登录的权限模式、数据水印追溯时间、管控的数据范围、识别结果的告警接收邮件及webHook地址等。

    • 用户组配置:快速将具有相同数据访问权限的账号批量添加至用户组,后续配置数据脱敏时,统一配置白名单,获取脱敏前的原始数据。

  2. 步骤二:事中防护。

    敏感数据规则配置完成并启用后,DataWorks将自动识别命中规则的敏感数据,您可在数据保护伞相关模块查看识别结果。

    细分操作

    描述

    参考文档

    访问控制管理

    配置基于IP或者数据库用户的直通或者阻断策略。

    -

    数据脱敏管理

    用于对识别到的敏感数据配置脱敏规则,后续,敏感数据将按照配置规则呈现。不同敏感级别的数据脱敏管控存在差异。

    脱敏分类:

    • 动态脱敏:查询敏感数据时,在查询页面展示脱敏后数据。

    • 静态脱敏:将数据脱敏后存储到指定的数据库位置。

    脱敏方式:包括保留格式加密、掩盖、HASH加密、字符替换、区间变换、取整、置空等。

    同时,对需返回原始数据的特殊场景,可配置白名单查看明文信息。

    您可按需选择合适的脱敏场景及脱敏方式。

    创建数据脱敏规则

    风险识别管理

    数据保护伞中内置的风险规则,可直接生效使用;同时,支持自定义风险规则、阈值比较。例如,数据量比较、频次比较等,风险规则生效后,系统会自动进行检测,主动发现风险操作并预警。

    风险监测处置

    查看监测出的风险的操作明细信息,可根据需要支持标记是否无风险、是否已处置等。

  3. 步骤三:事后审计溯源。

    根据事中的风险监测情况,处理相关敏感数据,进行安全管控,保障数据安全。

    细分操作

    描述

    参考文档

    数据操作审计

    数据保护伞会记录所有涉及敏感数据的行为(包含IP、端口信息、数据库用户等)及敏感数据血缘信息,您可通过敏感信息进行相关操作审计。

    同时,针对规则识别不准确的敏感数据,可手动修正。

    数据水印溯源

    若存在数据泄露情况,可通过提取数据泄露文件中水印信息,帮助您定位到可能泄露目标数据的责任人。

    敏感数据溯源

使用限制

版本限制

仅支持DataWorks标准版及以上版本使用数据保护伞功能。开通DataWorks,详情请参见开通DataWorks服务;不同DataWorks版本中数据保护伞功能支持情况,请参见DataWorks各版本详解

权限限制

仅阿里云主账号和拥有以下权限的RAM用户(即子账号)可开通数据保护伞:

说明
  • 拥有租户管理员和安全管理员(租户级)权限的用户可使用数据保护伞的全部功能。

  • 工作空间级的安全管理员,仅可使用其有权限的工作空间的相关功能。例如,数据血缘功能,修正敏感字段类型时,只能选择有权限的项目空间。若需要对其他工作空间的相关功能有使用权限,则需授予相关权限,详情请参见空间级模块权限管控

功能使用

目前仅支持使用数据识别和动态脱敏功能对EMR、MaxCompute、CDH、Hologres引擎的敏感数据进行识别和脱敏。

其中,识别EMR引擎敏感数据并进行脱敏的使用限制如下:

  • 敏感数据识别和脱敏目前仅支持部分EMR集群类型和表类型。如下所示:

    说明

    其中支持表示支持预览,不支持表示不支持预览。

    EMR集群类型

    元数据存储类型

    数据存储类型:OSS

    数据存储类型:OSS-HDFS

    数据存储类型:HDFS

    新版数据湖集群(DataLake)

    数据湖构建(DLF)

    不支持

    不支持

    不支持

    RDS实例

    支持

    支持

    支持

    MySQL

    支持

    支持

    支持

    自定义集群(Custom)

    数据湖构建(DLF)

    不支持

    不支持

    不支持

    RDS实例

    支持

    支持

    支持

    MySQL

    支持

    支持

    支持

    其他集群

    --

    不支持

    说明

    该功能目前仅支持华东 1(杭州)、华东 2(上海)、华东2(上海)金融云、华北 2(北京)、华南 1(深圳)、华南1(深圳)金融云、西南 1(成都)、华北2(政务云)、中国香港、美国(硅谷)、新加坡、马来西亚(吉隆坡)、德国(法兰克福)地域使用。

  • 在EMR集群下使用数据保护伞需升级独享调度资源组,您可加入DataWorks钉钉群联系技术支持同学申请升级。

  • 数据保护伞默认使用阿里云主账号进行数据抽样,如果您的集群开启了LDAP认证,使用Ranger或DLF-Auth管理表权限,需您为主账号配置账号映射,并保证映射后的账号有权限访问EMR集群中表,具体操作方法详情请参见配置访问身份的映射关系

进入数据保护伞

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据保护伞,单击立即体验,进入数据保护伞。

    说明
    • 若阿里云主账号已授权,则直接进入数据保护伞的首页。

    • 若阿里云主账号未授权,则进入数据保护伞的授权页面。授权后才可使用保护伞的相关功能。