DataWorks資料地圖為您提供中繼資料採集功能,方便您將不同系統中的中繼資料進行統一匯總管理,您可以在資料地圖查看從各資料來源彙集而來的中繼資料資訊。本文為您介紹如何建立採集器,將各資料來源的中繼資料資訊彙集至DataWorks。
前提條件
您需要先在工作空間建立資料來源後,才可以進行中繼資料採集。建立資料來源配置詳情請參見:資料來源管理。
中繼資料採集概述
在工作空間中建立資料來源後,DataWorks可以面向資料來源提供中繼資料採集能力。在資料地圖中開啟中繼資料採集後,系統將一次性全量採集存量的中繼資料,同時每天採集增量的中繼資料,並彙集至資料地圖,方便您進行資料總覽、分類分組管理資料表、查看資料血緣關係等操作。
如果系統預設配置的採集計劃不適用,支援您修改採集器執行計畫,詳情請參見管理中繼資料採集器。
MaxCompute和E-MapReduce(DLF)資料來源綁定至資料開發後,由系統自動營運中繼資料採集器,您無需額外管理中繼資料採集器。
支援的資料來源及中繼資料採集方式
資料來源類型 | 中繼資料採集方式 | 是否能在資料地圖中看到採集器 | 中繼資料更新時效性 | ||
資料表/欄位 | 分區 | 資料血緣 | |||
MaxCompute |
| 否 | 普通專案:即時 外部項目:T+1 | 國內地區:即時 海外地區:T+1 | T+1 |
E-MapReduce(DLF) 說明 需要為叢集開啟EMR_HOOK。 |
| 否 | 即時 | 即時 | 即時 |
E-MapReduce(HMS / RDS) 說明 需要為叢集開啟EMR_HOOK。 |
| 是 | 即時 | 即時 | 即時 |
Hologres |
| 是 | 取決於自訂採集計劃 | 不支援 | 即時 |
AnalyticDB for PostgreSQL |
| 是 | 取決於自訂採集計劃 | 不支援 | 即時 |
AnalyticDB for MySQL |
| 是 | 取決於自訂採集計劃 | 不支援 | 即時 說明 需要提交工單為AnalyticDB for MySQL執行個體開啟資料血緣功能。 |
AnalyticDB for Spark |
| 是 | 即時 | 不支援 | 即時 |
CDH Hive |
| 是 | 取決於自訂採集計劃 | 即時 | 即時 |
Data Lake Formation(DLF) | 自動啟動採集 | 否 | 即時 | 即時 | 不適用 |
其他資料來源類型(MySQL、PostgreSQL、SQL Server、Oracle、Table Store(OTS)、StarRocks、Clickhouse等) |
| 是 | 取決於自訂採集計劃 | 不支援 | 不支援 |
使用限制
僅支援對當前登入帳號所屬的工作空間中已配置的資料來源,進行中繼資料採集操作。如果您需要採集其他工作空間中資料來源的中繼資料資訊,您可以聯絡空間管理員增加空間成員,詳情請參見為工作空間增加空間成員。
當您需要採集已開啟白名單存取控制的資料來源的中繼資料時,則需要提前配置好資料庫的白名單許可權。詳情請參見中繼資料採集的資料來源有白名單存取控制時需要配置的白名單。
DataWorks目前不建議跨地區採集中繼資料,即DataWorks所在的地區需要與資料來源所在的地區相同。如需跨地區採集中繼資料,請在建立資料來源時使用公網地址。詳情請參見建立並管理資料來源。
暫不支援使用MySQL中繼資料採集器來採集OceanBase資料來源。
功能入口
在左側功能表列,單擊中繼資料採集。
您可以在資料發現頁面的資料來源視角對已配置的各資料來源的中繼資料採集器進行管理。對於無資料來源的情況,支援您單擊建立資料來源,進入資料來源配置頁面,建立資料來源。
查看中繼資料採集器
整體統計
在中繼資料採集頁面,您可以在資料來源視角查看中繼資料採集總覽,主要為您展示已建立採集器的資料來源數量。
明細列表
您還可以單擊目標資料來源類型右上方的管理按鈕,進入採集明細頁面,查看指定工作空間下相應採集器的運行狀態、執行計畫、上次已耗用時間、上次消耗時間、平均運行耗時及上次運行時更新及添加的表數量。
管理中繼資料採集器
單擊目標資料來源右上方的管理按鈕,預設進入已採集列表,您可以對已有採集器進行如下操作。
運行中繼資料採集器
支援您手動運行中繼資料採集器,您可以根據業務需要在已採集列表頁面找到目標資料來源單擊操作列的運行,即可執行一次中繼資料採集。
修改中繼資料採集器的執行計畫
進入已採集列表,單擊目標資料來源採集器操作列的編輯,即可修改採集器的執行計畫,支援的執行計畫包括手動採集或周期採集。
手動採集:在配置目標資料來源的中繼資料採集器後,需要按需手動觸發中繼資料的採集和更新。
周期採集:在配置目標資料來源的中繼資料採集器後,您無需手動觸發,系統會按照配置的採集計劃周期性進行中繼資料的採集和更新。
移除中繼資料採集器
支援您在已採集列表頁面找到目標資料來源單擊操作列的移除,移除當前資料來源的中繼資料採集器。移除後該資料來源將會進入未採集列表,不再進行中繼資料採集。
建立中繼資料採集器
建立資料來源或註冊叢集後,您可以進入資料地圖中開啟中繼資料採集,在已採集列表中查看目標資料來源的中繼資料採集情況。
移除中繼資料採集器後,如果後續您需要重新啟動採集,支援您在未採集列表中重新建立中繼資料採集器,以下是詳細的操作步驟。
單擊列表頂部的未採集列表。
找到目標資料來源,單擊操作列的中繼資料採集,在彈出來的配置採集計劃框中配置各項參數。
說明不同資料來源配置採集計劃介面可能存在差異,請以產品介面為準。
參數
描述
資源群組名稱
選擇已與資料來源網路連通的資源群組。資料地圖支援您選擇如下3種資源群組,您可根據需求選取:
預設資源群組
default
。您自己的獨享調度資源群組。
您自己的獨享Data Integration資源群組。
您自己的Serverless資源群組(通用型資源群組)。
連通性測試
選擇完資源群組名稱後,如果您想再次測試資源群組與資料來源的連通性,您可以單擊測試連通性進行驗證。如果顯示測試連通性未通過:
請確認資料來源是否開啟了白名單限制,如果需要採集已開啟白名單存取控制的中繼資料,請參考中繼資料採集的資料來源有白名單存取控制時需要配置的白名單配置白名單許可權。
如果資料來源未開啟白名單限制,請參考資源群組操作及網路連通文檔進行資料來源網路打通。
採集計劃
包括手動採集、每月、每周、每天及每小時。根據不同的執行循環,產生不同的執行計畫,在相應執行計畫的時間內,對目標資料來源進行中繼資料採集。
手動採集:根據實際業務需求,在業務需要時手動觸發中繼資料的採集和更新。
月採集:即在每月所指定日期的指定時間點自動採集一次中繼資料。
重要部分月份不包含29、30、31日,請您謹慎選擇月末日期。
周採集:即在每周所指定日期的指定時間點自動採集一次中繼資料。
不輸入時間時,則預設在每周指定幾天的00:00:00採集。
天採集:即在每天特定的時間點自動採集一次中繼資料。
小時採集:即在每小時的第
N分鐘
自動採集一次中繼資料。
確認配置資訊無誤後,單擊確認。
系統會根據配置的採集計劃,進行中繼資料採集,如果是手動採集,您可以根據實際業務需求,在業務需要時進入已採集列表,找到目標資料來源,單擊操作列的運行,即可手動執行採集任務。
後續步驟
採集中繼資料成功後,您可以在資料地圖中進行資料總覽、分類分組管理資料表、查看資料血緣關係等操作。詳情請參見資料總覽、尋找表、業務視角管理:資料專輯。