在業務運行中,經常會沉澱到大量資料到資料湖中這部分資料可能是沒有像資料倉儲一樣經過嚴格的資料管理流程或沉澱規範明確的中繼資料資訊。中繼資料抽取可以分析資料湖中特定格式的資料,並自動產生中繼資料資訊,通過周期性或手動執行,實現資料湖分析計算schema on read目標。
使用限制
抽取的資料存放區僅支援資料存放區在阿里雲OSS標準型中的資料。
目前中繼資料發現僅支援JSON、CSV、Parquet、ORC、Hudi、Delta、Avro格式。
中繼資料發現消耗算力,目前暫不收取費用。
操作步驟
登入資料湖構建控制台。
在左側導覽列,單擊中繼資料> 中繼資料抽取。
在中繼資料抽取頁面,單擊建立抽取任務。
輸入中繼資料抽取任務的配置參數,詳細參數說明如下。
參數配置
欄位描述
抽取任務名稱
中繼資料抽取任務的名稱,輸入為中英文數字和(_)。
OSS路徑
指定待抽取資料的OSS目錄。
排除模式
排查指定OSS目錄下的檔案,支援正則匹配。
解析格式
支援JSON、CSV、Parquet、ORC、Hudi、Delta、Avro中某一類格式進行抽取,或採用自動識別模式會對資料檔案自動解析。
目標資料庫
抽取擷取的中繼資料存放區在中繼資料庫的位置。
目標資料表首碼
通過中繼資料抽取產生跟檔案一致的表名,輸入目標中繼資料表首碼後,會在表名前添加首碼。
抽取任務發現表欄位更新時
當中繼資料抽取任務擷取的表與現有表欄位發現不一致時,採取:
僅新增列,不會刪除中繼資料中原有的列。
更新表結構,根據最新探測的表結構產生新的表結果。
忽略更新,不修改任何錶,現有中繼資料保持不變。
說明ORC檔案不支援識別新增列。
如何處理OSS中發現已刪除對象
當中繼資料抽取任務探測到原來表對應OSS資料已經被刪除,採取:
刪除對應的中繼資料。
忽略更新,不刪除任何錶。
RAM角色
執行中繼資料抽取任務時採用的角色,預設為AliyunDLFWorkFlowDefaultRole,賦予DLF產品有作業執行的許可權。
執行策略
手動執行,通過手動方式觸發任務執行。
調度執行,周期性的通過指定時間執行中繼資料抽取任務。
抽取策略
快速抽取:抽取中繼資料時只掃描每個檔案的部分資料,抽取作業消耗時間較短,抽取結果準確性低於全量抽取,您可以在中繼資料編輯中調整中繼資料資訊。
全量抽取:抽取中繼資料時掃描全量資料檔案,在資料規模比較大時,作業消耗時間長,抽取結果更準確。
5. 確認任務執行的相關參數,單擊儲存並立即執行。