全部產品
Search
文件中心

DataWorks:CDH Hive資料抽樣採集器

更新時間:Jun 26, 2024

您可以通過DataWorks的資料抽樣採集器功能,從CDH Hive表中隨機抽取表的部分資料用於資料保護傘的敏感性資料識別。如果您在資料保護傘中配置了脫敏規則,那麼在資料地圖表詳情頁面進行資料預覽時,命中的敏感欄位將會被脫敏。本文為您介紹如何建立CDH Hive資料抽樣採集器。

前提條件

使用限制

  • 目前僅上海和成都地區可以使用資料抽樣採集器功能。

  • 支援基於叢集按照資料庫進行資料抽樣採集。一個叢集僅支援建立一個採集器,一個採集器中可以選擇一個或多個需要進行資料抽樣採集的資料庫。

  • 選擇叢集後,如果不選擇資料庫,預設對所有資料庫下的表進行資料抽樣。

  • 阿里雲主帳號,擁有AliyunDataWorksFullAccess許可權的子帳號可以進行採集。

  • CDH Hive新增、變更、刪除表後需要重新進行資料抽樣採集。

  • 目前僅支援手動採集。

建立採集器

  1. 進入資料地圖

  2. 在左側功能表列,單擊資料發現

  3. 資料來源視角找到CDH Hive(僅限資料抽樣使用)採集器。

    CDH HIve

  4. 單擊右上方的管理,預設進入已採集列表

    您可以單擊進入未採集列表頁面,查看未建立資料抽樣採集器的列表詳情。

  5. 單擊右上方的建立資料抽樣採集器進行配置。

    建立採集器

    參數

    描述

    叢集

    下拉式清單中展示當前Region下DataWorks登入的CDH叢集。您可以選擇需要採集資料的CDH叢集。詳情請參見:對接使用CDH與CDP

    資料庫

    選擇需要進行資料抽樣採集的資料庫。如果不選擇,預設對該叢集內所有資料庫的表資料進行抽樣採集。

    獨享資源群組

    選擇在註冊CDH叢集時,網路已連通的資源群組。

    抽樣採集服務

    選擇需要進行資料抽樣採集的服務。詳情請參見:對接使用CDH與CDP

    採集帳號

    為您展示用於此次資料抽樣採集的帳號,該帳號將自動根據工作空間註冊開源叢集頁面配置的帳號映射關係進行讀取。詳情請參見:建立並管理工作空間

    執行計畫

    定義該採集器多久進行一次資料抽樣採集,目前僅支援按需採集。

  6. 單擊確認,採集器建立完成。

管理採集器

您可以在已採集列表頁面,查看相應採集器的運行狀態執行計畫上次已耗用時間上次消耗時間平均運行耗時等資訊,同時,您還可以對目標採集器執行如下操作:

  • 詳情:查看目標採集器所配置的詳細資料。

  • 編輯:修改目標採集器所配置的叢集獨享資源群組等資訊。

  • 刪除:刪除目標採集器。

  • 運行:運行採集器,根據目標採集器的配置資訊採集資料。運行後,識別出的敏感欄位會展示在資料保護傘頁面,當您在資料保護傘中配置脫敏規則後,命中的敏感欄位在資料地圖中預覽時將會被脫敏。

  • 停止:停止運行中的採集器。

後續步驟

CDH Hive資料抽樣採集成功,如果您已在資料保護傘中配置脫敏規則,那麼在資料地圖表詳情頁面進行表資料預覽時,命中脫敏規則的敏感欄位將會被脫敏。詳情請參見:資料保護傘查看錶詳情