全部產品
Search
文件中心

Hologres:資料湖加速

更新時間:Dec 18, 2024

即時資料湖支援您通過外部表格的方式,直接加速讀寫儲存於OSS上的資料,從而提高查詢效率並簡化資料處理流程。

背景資訊

隨著雲端儲存(尤其是Object Storage Service)逐步成熟的大背景,資料湖的解決方案也逐步往雲原生靠近。阿里雲的湖倉一體架構,將OSS作為雲上資料湖的統一儲存,為您提供安全、低成本、高可靠、可擴充的資料湖方案。

即時資料湖是在湖倉一體架構下,更加註重資料的即時屬性或者流屬性的一個資料湖發展方向。Hologres充分利用自身即時寫入、即時更新、即時分析的強大引擎能力,結合阿里雲資料湖構建(Data Lake Formation,DLF)、中繼資料管理(Hive Metastore Service,HMS)、阿里雲Object Storage Service(Object Storage Service,OSS)資料湖儲存服務以及豐富的生態整合,為您提供了一套完整的即時資料湖解決方案。以外部表格的方式,無需移動資料(外部表格只做欄位對應,不真正儲存資料),直接加速讀寫儲存於OSS上的各種格式類型的資料,降低開發營運成本,打破資料孤島,實現業務洞察。

即時資料湖涉及的阿里雲服務介紹如下:

服務

介紹

相關連結

阿里雲資料湖構建(Data Lake Formation,DLF)

是一款全託管的快速協助使用者構建雲上資料湖及Lakehouse的服務,產品提供了雲上資料湖統一的中繼資料管理、統一的許可權與安全管理、便捷的資料入湖能力以及一鍵式資料探索能力。

DLF產品簡介

中繼資料管理(Hive Metastore Service,HMS)

作為Apache Hive的核心組件,主要承擔中繼資料存放區庫的功能,用於管理Hive Spark表的中繼資料資訊,包括表結構(如表名、列名、資料類型、分區資訊等)及表資料的儲存位置。其主要作用是提供中繼資料服務,支援Hive Spark進行資料查詢。

Hive Metastore Server

阿里雲Object Storage Service(Object Storage Service,OSS)

DLF將OSS作為雲上資料湖的統一儲存,OSS是一款海量、安全、低成本、高可靠的雲端儲存體服務,適合存放任意類型的檔案,可提供12個9的資料持久性,已成為湖資料存放區的事實標準。

什麼是Object Storage Service

OSS-HDFS服務(又名JindoFS)是雲原生資料湖儲存,相比原生OSS儲存,OSS-HDFS與Hadoop生態計算引擎無縫整合,在典型的基於Hive和Spark的離線ETL情境擁有更好的表現,在完全相容HDFS檔案系統介面的同時,提供充分的POSIX能力支援,可以更好地滿足巨量資料和AI等領域的資料湖計算情境。

什麼是OSS-HDFS服務

架構介紹

以下是Hologres推薦的資料湖架構方案,該架構覆蓋了從資料擷取、儲存、管理直至應用的整個生命週期,同時結合了Hologres強大的引擎能力、靈活的彈性策略,為您提供一個端到端的湖倉融合解決方案。

Hologres湖倉加速-文檔

功能簡介

  • Hologres V1.1版本開始支援從OSS讀取ORC、Parquet、CSV、SequenceFile格式檔案。從V1.3版本開始支援從OSS讀取HUDI、Delta格式檔案,支援寫入ORC、Parquet、CSV、SequenceFile格式檔案至OSS。

    說明

    請前往Hologres管控台執行個體詳情頁查看當前執行個體版本,如果您的執行個體是V1.1以下版本,請您使用執行個體升級或加入HologresDingTalk交流群反饋,詳情請參見如何擷取更多的線上支援?

  • Hologres從V1.3.25 版本開始支援使用DLF資料目錄(Multi-Catalog)做中繼資料隔離,方便您在測試環境、開發環境、跨部門叢集之間做中繼資料隔離,以保障業務安全。DLF資料目錄詳情請參見資料目錄

  • Hologres從V1.3.26版本開始支援讀寫儲存於OSS-HDFS上的資料。進一步擴充了資料湖加速的服務能力和邊界,使Hologres可以與Hadoop生態計算引擎無縫整合,加速讀寫儲存於HDFS上的資料,大幅提升Hadoop生態資料即時分析的效率,更好地滿足巨量資料和AI等領域的資料湖聯邦、即時分析訴求。

  • Hologres從V2.1.0版本開始支援讀取Paimon格式的外部表格。Apache Paimon是流批統一的湖儲存格式,支援高吞吐的寫入和低延後查詢,促進資料在資料湖上真正即時的流動,並為使用者提供基於湖儲存的即時離線一體化的開發體驗。詳情請參見Apache Paimon

  • Hologres從2.2版本開始,基於全新的外部表格架構,實現了HQE直讀ORC、Parquet資料以及本地SSD緩衝加速能力,實現了效能5倍以上的提升。支援通過 Hive Metastore來訪問儲存於OSS和OSS-HDFS上的資料。詳情請參見基於Hive Metastore訪問OSS資料湖資料(Beta)

    說明

    若您的執行個體為V2.1或以下版本,可聯絡Hologres支援人員升級執行個體。

  • Hologres從3.0版本

    • 新增External Database功能,支援DLF、MaxCompute等資料來源的Catalog層級中繼資料映射,提升資料湖的中繼資料和資料管理能力,詳情請參見CREATE EXTERNAL DATABASE

    • 新增External Schema 和 External Table能力,支援往指定DLF Catalog下建立Database和表,方便彙總後的資料回寫,詳情請參見CREATE EXTERNAL SCHEMACREATE EXTERNAL TABLE

    • 支援高效能寫入Paimon Append Table,方便湖倉資料自由流轉。

    • 支援Paimon Deletion Vector最佳化,提升存在大量資料刪除,但是未及時Compaction時的查詢效能。

    • 重構Delta Lake格式的Reader,讀取效能大幅提升。

    • 支援讀取Iceberg湖格式,進一步擴充資料湖生態。

    • 支援對接Hive MetaStore映射中繼資料,透明加速EMR叢集。詳情請參見基於Hive Metastore訪問OSS資料湖資料(Beta)

    • 安全能力增強,預設使用SLR透傳身份訪問DLF2.0,同時支援以RAMRole的方式訪問DLF2.0。

使用說明

Hologres提供了三種外部資料源映射方式。

映射方式

功能說明

支援資料來源

支援版本

適用情境

CREATE EXTERNAL DATABASE

在Hologres執行個體中建立一個外部資料庫,來載入外部資料源的中繼資料到Hologres,方便在一個系統中同時管理內、外部資料,實現湖倉一體架構下統一的中繼資料管理。詳情請參見CREATE EXTERNAL DATABASE

  • DLF1.0

  • DLF2.0

  • MaxCompute

V3.0

需要將外部資料源Catalog層級下的DB和表全量映射至Hologres的情境。

IMPORT FOREIGN SCHEMA

通過大量建立外部表格的方式,將外部資料源中的部分表自動對應至Hologres的Schema一級。詳情請參見IMPORT FOREIGN SCHEMA

  • DLF1.0

  • DLF2.0

  • Hive Metastore

  • MaxCompute

  • Hologres

V0.8

將外部資料源中的DB或者schema層級的表全量映射至hologres的schema層級。

CREATE FOREIGN TABLE

通過手動建立外部表格的方式,將外部資料源中的單張表或者表中的部分欄位對應至Hologres。詳情請參見CREATE FOREIGN TABLE

  • DLF1.0

  • DLF2.0

  • Hive Metastore

  • MaxCompute

  • Hologres

V0.8

將部分表或者某張表的部分列資料對應至Hologres。

湖表格式和檔案格式

表格式

表格式

支援的版本

支援的壓縮方式

HUDI

V1.3及以上版本支援讀。

  • UNCOMPRESSED

  • GZIP

  • SNAPPY

  • BROTLI

  • LZ4

  • ZSTD

  • LZ4_RAW

  • None

  • ZLIB

Delta

V1.3 及以上版本支援讀。

  • UNCOMPRESSED

  • GZIP

  • SNAPPY

  • BROTLI

  • LZ4

  • ZSTD

  • LZ4_RAW

Paimon

  • V2.1及以上版本支援讀

  • V3.0及以上版本支援基於DLF2.0讀取湖表和寫入Append Table。

  • PARQUET

    • UNCOMPRESSED

    • SNAPPY

    • GZIP

    • LZO

    • BROTLI

    • LZ4

    • ZSTD

  • ORC

    • NONE

    • ZLIB

    • SNAPPY

    • LZO

    • LZ4

Iceberg

V3.0版本支援基於DLF1.0、HMS讀取湖表,包括V1、V2表。

  • PARQUET

    • UNCOMPRESSED

    • SNAPPY

    • GZIP

    • LZO

    • BROTLI

    • LZ4

    • ZSTD

  • ORC

    • NONE

    • ZLIB

    • SNAPPY

    • LZO

    • LZ4

檔案格式

檔案格式

支援的版本

支援的壓縮方式

CSV

V1.3及以上版本支援讀寫

COMPRESSION_CODEC

  • BZip2Codec

  • DefaultCodec

  • GzipCodec

  • SnappyCodec

Parquet

V1.3及以上版本支援讀寫

  • UNCOMPRESSED

  • GZIP

  • SNAPPY

  • BROTLI

  • LZ4

  • ZSTD

  • LZ4_RAW

ORC

V1.3及以上版本支援讀寫

  • None

  • ZLIB

  • SNAPPY

SequenceFile

V1.3及以上版本支援讀寫

  • COMPRESSION_CODEC

    • BZip2Codec

    • DefaultCodec

    • GzipCodec

    • SnappyCodec

  • COMPRESSION_TYPE

    • NONE

    • RECORD

    • BLOCK

資料類型支援

資料類型映射Hologres與資料湖資料類型映射關係請參見資料類型匯總