您可以通過DataWorks的資料抽樣採集器功能,從CDH Hive表中隨機抽取表的部分資料用於資料保護傘的敏感性資料識別。如果您在資料保護傘中配置了脫敏規則,那麼在資料地圖表詳情頁面進行資料預覽時,命中的敏感欄位將會被脫敏。本文為您介紹如何建立CDH Hive資料抽樣採集器。
前提條件
已購買並建立DataWorks的新版資源群組(通用型資源群組)或獨享調度資源群組。詳情請參見:新增和使用新版資源群組、新增和使用獨享調度資源群組。
在工作空間註冊CDH叢集後,您才可以進行CDH資料抽樣採集操作,詳情請參見註冊CDH或CDP叢集至DataWorks。
使用限制
目前僅上海和成都地區可以使用資料抽樣採集器功能。
支援基於叢集按照資料庫進行資料抽樣採集。一個叢集僅支援建立一個採集器,一個採集器中可以選擇一個或多個需要進行資料抽樣採集的資料庫。
選擇叢集後,如果不選擇資料庫,預設對所有資料庫下的表進行資料抽樣。
阿里雲主帳號,擁有AliyunDataWorksFullAccess許可權的子帳號可以進行採集。
CDH Hive新增、變更、刪除表後需要重新進行資料抽樣採集。
目前僅支援手動採集。
建立採集器
在左側功能表列,單擊資料發現。
在資料來源視角找到CDH Hive(僅限資料抽樣使用)採集器。
單擊右上方的管理,預設進入已採集列表。
您可以單擊進入未採集列表頁面,查看未建立資料抽樣採集器的列表詳情。
單擊右上方的建立資料抽樣採集器進行配置。
參數
描述
叢集
下拉式清單中展示當前Region下DataWorks登入的CDH叢集。您可以選擇需要採集資料的CDH叢集。詳情請參見:對接使用CDH與CDP。
資料庫
選擇需要進行資料抽樣採集的資料庫。如果不選擇,預設對該叢集內所有資料庫的表資料進行抽樣採集。
獨享資源群組
選擇在註冊CDH叢集時,網路已連通的資源群組。
抽樣採集服務
選擇需要進行資料抽樣採集的服務。詳情請參見:對接使用CDH與CDP。
採集帳號
為您展示用於此次資料抽樣採集的帳號,該帳號將自動根據工作空間註冊開源叢集頁面配置的帳號映射關係進行讀取。詳情請參見:建立並管理工作空間
執行計畫
定義該採集器多久進行一次資料抽樣採集,目前僅支援按需採集。
單擊確認,採集器建立完成。
管理採集器
您可以在已採集列表頁面,查看相應採集器的運行狀態、執行計畫、上次已耗用時間、上次消耗時間及平均運行耗時等資訊,同時,您還可以對目標採集器執行如下操作:
詳情:查看目標採集器所配置的詳細資料。
編輯:修改目標採集器所配置的叢集、獨享資源群組等資訊。
刪除:刪除目標採集器。
運行:運行採集器,根據目標採集器的配置資訊採集資料。運行後,識別出的敏感欄位會展示在資料保護傘頁面,當您在資料保護傘中配置脫敏規則後,命中的敏感欄位在資料地圖中預覽時將會被脫敏。
停止:停止運行中的採集器。
後續步驟
CDH Hive資料抽樣採集成功,如果您已在資料保護傘中配置脫敏規則,那麼在資料地圖表詳情頁面進行表資料預覽時,命中脫敏規則的敏感欄位將會被脫敏。詳情請參見:資料保護傘、查看錶詳情。