本文檔主要介紹雲原生資料湖分析(Data Lake Analytics,DLA)文檔中涉及的基本概念。
資料湖
資料湖是一個集中式存放庫,允許您以任意規模儲存所有結構化和非結構化資料,資料湖支援儲存EB層級的資料,阿里雲資料湖儲存以OSS為代表!
資料湖分析
資料湖分析就是針對資料湖資料分析的方案。雲原生資料湖分析(簡稱DLA)是新一代巨量資料解決方案,採取計算與儲存完全分離的架構,支援資料庫(RDS\PolarDB)與訊息即時歸檔建倉,提供彈性的Spark與Presto,滿足線上互動式查詢、流處理、批處理、機器學習等訴求,也是傳統Hadoop方案上雲的有競爭力的解決方案。
虛擬叢集VC(Virtual Cluster)
虛擬叢集VC(Virtual Cluster)是對底層資源的抽象,可以針對VC配置網路打通及一些基本的資訊。當您選CU版本計費時,需要構建VC叢集。掃描量版本的資源是平台構建一批VC,使用者無需直接為資源付費,資源會按照掃描量轉化為實際的費用,主要是為了滿足使用者無需持有資源且能得到立即響應的體驗。
DLA帳號
帳號分為DLA帳號、RAM帳號,DLA帳號與RAM帳號可以進行關聯。
DLA中繼資料
中繼資料:支援庫(Schema,是表的集合)、表(Table,是同構行記錄的集合)、列(Column,描述一行資料的某個屬性)、視圖(View,將某個查詢的結果抽象成一張表)等,每個庫(Schema)只能對應一種資料來源,中繼資料是Presto引擎、Spark引擎均可安全訪問。
DLA文法標準
- DDL:參考Hive標準。
- DCL:MySQL資料庫標準。
- DML:DLA Presto相容開源Presto標準,DLA Spark SQL是開源Spark的標準。