全部产品
Search
文档中心

大数据开发治理平台 DataWorks:CDH Hive数据抽样采集器

更新时间:Jun 25, 2024

您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍如何新建CDH Hive数据抽样采集器。

前提条件

使用限制

  • 目前仅上海和成都地域可以使用数据抽样采集器功能。

  • 支持基于集群按照数据库进行数据抽样采集。一个集群仅支持新建一个采集器,一个采集器中可以选择一个或多个需要进行数据抽样采集的数据库。

  • 选择集群后,如果不选择数据库,默认对所有数据库下的表进行数据抽样。

  • 阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号可以进行采集。

  • CDH Hive新增、变更、删除表后需要重新进行数据抽样采集。

  • 目前仅支持手动采集。

新建采集器

  1. 进入数据地图

  2. 在左侧菜单栏,单击数据发现

  3. 数据源视角找到CDH Hive(仅限数据抽样使用)采集器。

    CDH HIve

  4. 单击右上角的管理,默认进入已采集列表

    您可以单击进入未采集列表页面,查看未创建数据抽样采集器的列表详情。

  5. 单击右上角的新建数据抽样采集器进行配置。

    新建采集器

    参数

    描述

    集群

    下拉列表中展示当前Region下DataWorks已注册的CDH集群。您可以选择需要采集数据的CDH集群。详情请参见:对接使用CDH与CDP

    数据库

    选择需要进行数据抽样采集的数据库。如果不选择,默认对该集群内所有数据库的表数据进行抽样采集。

    独享资源组

    选择在注册CDH集群时,网络已连通的资源组。

    抽样采集服务

    选择需要进行数据抽样采集的服务。详情请参见:对接使用CDH与CDP

    采集账号

    为您展示用于此次数据抽样采集的账号,该账号将自动根据工作空间注册开源集群页面配置的账号映射关系进行读取。详情请参见:创建并管理工作空间

    执行计划

    定义该采集器多久进行一次数据抽样采集,目前仅支持按需采集。

  6. 单击确认,采集器创建完成。

管理采集器

您可以在已采集列表页面,查看相应采集器的运行状态执行计划上次运行时间上次消耗时间平均运行耗时等信息,同时,您还可以对目标采集器执行如下操作:

  • 详情:查看目标采集器所配置的详细信息。

  • 编辑:修改目标采集器所配置的集群独享资源组等信息。

  • 删除:删除目标采集器。

  • 运行:运行采集器,根据目标采集器的配置信息采集数据。运行后,识别出的敏感字段会展示在数据保护伞页面,当您在数据保护伞中配置脱敏规则后,命中的敏感字段在数据地图中预览时将会被脱敏。

  • 停止:停止运行中的采集器。

后续步骤

CDH Hive数据抽样采集成功,如果您已在数据保护伞中配置脱敏规则,那么在数据地图表详情页面进行表数据预览时,命中脱敏规则的敏感字段将会被脱敏。详情请参见:数据保护伞查看表详情