即時資料湖支援您通過外部表格的方式,直接加速讀寫儲存於OSS上的資料,從而提高查詢效率並簡化資料處理流程。
背景資訊
隨著雲端儲存(尤其是Object Storage Service)逐步成熟的大背景,資料湖的解決方案也逐步往雲原生靠近。阿里雲的湖倉一體架構,將OSS作為雲上資料湖的統一儲存,為您提供安全、低成本、高可靠、可擴充的資料湖方案。
即時資料湖是在湖倉一體架構下,更加註重資料的即時屬性或者流屬性的一個資料湖發展方向。Hologres充分利用自身即時寫入、即時更新、即時分析的強大引擎能力,結合阿里雲資料湖構建(Data Lake Formation,DLF)、中繼資料管理(Hive Metastore Service,HMS)、阿里雲Object Storage Service(Object Storage Service,OSS)資料湖儲存服務以及豐富的生態整合,為您提供了一套完整的即時資料湖解決方案。以外部表格的方式,無需移動資料(外部表格只做欄位對應,不真正儲存資料),直接加速讀寫儲存於OSS上的各種格式類型的資料,降低開發營運成本,打破資料孤島,實現業務洞察。
即時資料湖涉及的阿里雲服務介紹如下:
服務 | 介紹 | 相關連結 |
阿里雲資料湖構建(Data Lake Formation,DLF) | 是一款全託管的快速協助使用者構建雲上資料湖及Lakehouse的服務,產品提供了雲上資料湖統一的中繼資料管理、統一的許可權與安全管理、便捷的資料入湖能力以及一鍵式資料探索能力。 | |
中繼資料管理(Hive Metastore Service,HMS) | 作為Apache Hive的核心組件,主要承擔中繼資料存放區庫的功能,用於管理Hive Spark表的中繼資料資訊,包括表結構(如表名、列名、資料類型、分區資訊等)及表資料的儲存位置。其主要作用是提供中繼資料服務,支援Hive Spark進行資料查詢。 | |
阿里雲Object Storage Service(Object Storage Service,OSS) | DLF將OSS作為雲上資料湖的統一儲存,OSS是一款海量、安全、低成本、高可靠的雲端儲存體服務,適合存放任意類型的檔案,可提供12個9的資料持久性,已成為湖資料存放區的事實標準。 | |
OSS-HDFS服務(又名JindoFS)是雲原生資料湖儲存,相比原生OSS儲存,OSS-HDFS與Hadoop生態計算引擎無縫整合,在典型的基於Hive和Spark的離線ETL情境擁有更好的表現,在完全相容HDFS檔案系統介面的同時,提供充分的POSIX能力支援,可以更好地滿足巨量資料和AI等領域的資料湖計算情境。 |
架構介紹
以下是Hologres推薦的資料湖架構方案,該架構覆蓋了從資料擷取、儲存、管理直至應用的整個生命週期,同時結合了Hologres強大的引擎能力、靈活的彈性策略,為您提供一個端到端的湖倉融合解決方案。
功能簡介
Hologres V1.1版本開始支援從OSS讀取ORC、Parquet、CSV、SequenceFile格式檔案。從V1.3版本開始支援從OSS讀取HUDI、Delta格式檔案,支援寫入ORC、Parquet、CSV、SequenceFile格式檔案至OSS。
說明請前往Hologres管控台執行個體詳情頁查看當前執行個體版本,如果您的執行個體是V1.1以下版本,請您使用執行個體升級或加入HologresDingTalk交流群反饋,詳情請參見如何擷取更多的線上支援?。
Hologres從V1.3.25 版本開始支援使用DLF資料目錄(Multi-Catalog)做中繼資料隔離,方便您在測試環境、開發環境、跨部門叢集之間做中繼資料隔離,以保障業務安全。DLF資料目錄詳情請參見資料目錄。
Hologres從V1.3.26版本開始支援讀寫儲存於OSS-HDFS上的資料。進一步擴充了資料湖加速的服務能力和邊界,使Hologres可以與Hadoop生態計算引擎無縫整合,加速讀寫儲存於HDFS上的資料,大幅提升Hadoop生態資料即時分析的效率,更好地滿足巨量資料和AI等領域的資料湖聯邦、即時分析訴求。
Hologres從V2.1.0版本開始支援讀取Paimon格式的外部表格。Apache Paimon是流批統一的湖儲存格式,支援高吞吐的寫入和低延後查詢,促進資料在資料湖上真正即時的流動,並為使用者提供基於湖儲存的即時離線一體化的開發體驗。詳情請參見Apache Paimon。
Hologres從2.2版本開始,基於全新的外部表格架構,實現了HQE直讀ORC、Parquet資料以及本地SSD緩衝加速能力,實現了效能5倍以上的提升。支援通過 Hive Metastore來訪問儲存於OSS和OSS-HDFS上的資料。詳情請參見基於Hive Metastore訪問OSS資料湖資料(Beta)。
說明若您的執行個體為V2.1或以下版本,可聯絡Hologres支援人員升級執行個體。
Hologres從3.0版本
新增External Database功能,支援DLF、MaxCompute等資料來源的Catalog層級中繼資料映射,提升資料湖的中繼資料和資料管理能力,詳情請參見CREATE EXTERNAL DATABASE。
新增External Schema 和 External Table能力,支援往指定DLF Catalog下建立Database和表,方便彙總後的資料回寫,詳情請參見CREATE EXTERNAL SCHEMA 、CREATE EXTERNAL TABLE。
支援高效能寫入Paimon Append Table,方便湖倉資料自由流轉。
支援Paimon Deletion Vector最佳化,提升存在大量資料刪除,但是未及時Compaction時的查詢效能。
重構Delta Lake格式的Reader,讀取效能大幅提升。
支援讀取Iceberg湖格式,進一步擴充資料湖生態。
支援對接Hive MetaStore映射中繼資料,透明加速EMR叢集。詳情請參見基於Hive Metastore訪問OSS資料湖資料(Beta)。
安全能力增強,預設使用SLR透傳身份訪問DLF2.0,同時支援以RAMRole的方式訪問DLF2.0。
使用說明
Hologres提供了三種外部資料源映射方式。
映射方式 | 功能說明 | 支援資料來源 | 支援版本 | 適用情境 |
CREATE EXTERNAL DATABASE | 在Hologres執行個體中建立一個外部資料庫,來載入外部資料源的中繼資料到Hologres,方便在一個系統中同時管理內、外部資料,實現湖倉一體架構下統一的中繼資料管理。詳情請參見CREATE EXTERNAL DATABASE。 |
| V3.0 | 需要將外部資料源Catalog層級下的DB和表全量映射至Hologres的情境。 |
IMPORT FOREIGN SCHEMA | 通過大量建立外部表格的方式,將外部資料源中的部分表自動對應至Hologres的Schema一級。詳情請參見IMPORT FOREIGN SCHEMA。 |
| V0.8 | 將外部資料源中的DB或者schema層級的表全量映射至hologres的schema層級。 |
CREATE FOREIGN TABLE | 通過手動建立外部表格的方式,將外部資料源中的單張表或者表中的部分欄位對應至Hologres。詳情請參見CREATE FOREIGN TABLE。 |
| V0.8 | 將部分表或者某張表的部分列資料對應至Hologres。 |
湖表格式和檔案格式
表格式
表格式 | 支援的版本 | 支援的壓縮方式 |
HUDI | V1.3及以上版本支援讀。 |
|
Delta | V1.3 及以上版本支援讀。 |
|
Paimon |
|
|
Iceberg | V3.0版本支援基於DLF1.0、HMS讀取湖表,包括V1、V2表。 |
|
檔案格式
檔案格式 | 支援的版本 | 支援的壓縮方式 |
CSV | V1.3及以上版本支援讀寫 | COMPRESSION_CODEC
|
Parquet | V1.3及以上版本支援讀寫 |
|
ORC | V1.3及以上版本支援讀寫 |
|
SequenceFile | V1.3及以上版本支援讀寫 |
|
資料類型支援
資料類型映射Hologres與資料湖資料類型映射關係請參見資料類型匯總。