本文檔主要介紹資料湖分析服務DLA包含的核心功能以及應用情境。
資料湖分析服務DLA支援以下功能:
功能名稱 | 功能描述 | 參考文檔 |
帳號管理 | 帳號分為DLA帳號、RAM帳號。您可以建立DLA子帳號,並關聯RAM子帳號,關聯後可以通過RAM子帳號提交Spark作業。 | 帳號概覽 |
虛擬叢集管理 | 使用CU版本的DLA服務,需要建立虛擬叢集來進行高頻資料查詢。適用於查詢頻率高、查詢資料量較大的情境,同時也能夠給您使用DLA的費用預算帶來一定的確定性。 | 建立虛擬叢集 |
中繼資料管理 | 可視化全域管理檢視,可以進行中繼資料的操作,例如建立Schema、查看庫表資訊、查詢資料等。 | 查詢Schema詳情 |
元資訊發現 | 中繼資料爬取功能可以自動為OSS上面的資料檔案建立及更新資料湖中繼資料,方便分析和計算。具有自動探索檔案資料欄位及類型、自動對應目錄和分區、自動感知新增列及分區、自動對檔案進行分組建表的能力。 | OSS資料來源 |
一鍵入湖 | 通過DLA控制台配置資料來源(RDS資料來源、ECS自建資料庫資料)和目標OSS資料倉儲,系統按照您設定的資料同步時間自動、無縫的幫您把資料來源中的資料同步到目標資料倉儲OSS中,同時在資料倉儲和DLA中建立與資料來源表相同的表結構,基於目標資料倉儲進行資料分析,不影響資料來源端的線上業務運行。 | 概述 |
即時資料湖 | 基於DLA Serverless的Spark Streaming以及資料湖增量儲存格式Apache HUDI來構建,通過HUDI增量寫入OSS的資料,同時自動在DLA的中繼資料系統構建中繼資料。 | DLA Lakehouse即時入湖 |
DLA Serverless Presto | DLA Serverless Presto是雲原生資料湖團隊基於Presto打造的互動式分析引擎,Presto開發的初衷就是為瞭解決使用Hive來進行線上分析速度太慢的問題,因此它採用全記憶體流水線化的執行引擎,相較於其它引擎會把中間資料落盤的執行方式,Presto在執行速度上有很大的優勢,特別適合用來做Adhoc查詢、BI分析、輕量級ETL等資料分析工作。 | Serverless Presto概述 |
DLA Serverless Spark | DLA Serverless Spark雲端式原生架構,提供面向資料湖情境的資料分析和計算。開通DLA服務後,您只需簡單的配置,就可以提交Spark作業;無需關心Spark叢集部署。 | Serverless Spark概述 |