全部產品
Search
文件中心

Realtime Compute for Apache Flink:基於Paimon的Streaming Lakehouse方案

更新時間:Jul 13, 2024

Apache Paimon是一種流批統一的資料湖儲存格式,結合Flink及Spark構建流批處理的即時湖倉一體架構。Paimon創新地將湖格式與LSM技術結合起來,給資料湖帶來了即時資料流更新以及完整的流處理能力。藉助Realtime ComputeFlink版與Apache Paimon,可以快速地在雲端OSS上構建資料湖儲存服務。

Apache Paimon提供以下核心能力:

  • 即時入湖能力增強:Realtime ComputeFlink版提供了豐富的入湖方式,支援自動同步Schema變更,允許快速將包括MySQL在內的多種資料庫系統的即時變化同步至資料湖,在千萬級資料規模下也能保持高效率與低延遲。

  • 湖上流批一體處理:Paimon結合Flink提供了完整的流處理能力,結合Spark提供了完整的批處理能力。基於統一的資料湖儲存,提供資料口徑一致的流批一體處理,提高易用性並降低成本。

  • 全面生態整合拓展:Paimon與眾多計算緊密整合,Realtime ComputeFlink版、E-MapReduce(Spark、StarRocks、Hive或Trino)、MaxCompute都與Paimon有著較為完善的整合度,統一儲存,計算無邊界。

  • 湖倉儲存格式革新:Paimon在流批技術處理的基礎上,提出Deletion Vectors和索引來增強查詢效能,在分鐘級時效性基礎上滿足流、批、OLAP等情境的全方位支援。

更多資訊請參見Apache Paimon

使用指南

初次使用

建立Paimon Catalog

Paimon Catalog可以方便地管理同一個目錄下的所有Paimon表,並與其它阿里雲產品連通。我們支援通過Paimon Catalog建立並操作Paimon表。

建立Paimon表

向Paimon表寫入資料

從Paimon表消費資料

Paimon表的維護