Apache Paimon是一種流批統一的資料湖儲存格式,結合Flink及Spark構建流批處理的即時湖倉一體架構。Paimon創新地將湖格式與LSM技術結合起來,給資料湖帶來了即時資料流更新以及完整的流處理能力。藉助Realtime ComputeFlink版與Apache Paimon,可以快速地在雲端OSS上構建資料湖儲存服務。
Apache Paimon提供以下核心能力:
即時入湖能力增強:Realtime ComputeFlink版提供了豐富的入湖方式,支援自動同步Schema變更,允許快速將包括MySQL在內的多種資料庫系統的即時變化同步至資料湖,在千萬級資料規模下也能保持高效率與低延遲。
湖上流批一體處理:Paimon結合Flink提供了完整的流處理能力,結合Spark提供了完整的批處理能力。基於統一的資料湖儲存,提供資料口徑一致的流批一體處理,提高易用性並降低成本。
全面生態整合拓展:Paimon與眾多計算緊密整合,Realtime ComputeFlink版、E-MapReduce(Spark、StarRocks、Hive或Trino)、MaxCompute都與Paimon有著較為完善的整合度,統一儲存,計算無邊界。
湖倉儲存格式革新:Paimon在流批技術處理的基礎上,提出Deletion Vectors和索引來增強查詢效能,在分鐘級時效性基礎上滿足流、批、OLAP等情境的全方位支援。
更多資訊請參見Apache Paimon。
使用指南
初次使用
如果您想要快速開始體驗Paimon,詳情請參見Paimon快速開始:準系統。
如果您需要根據主鍵更新資料,請使用Paimon主鍵表。如果您沒有更新資料的需求,僅需要將無主鍵的資料匯入Paimon表,請使用Paimon Append Only表(非主鍵表)。
如果您想要瞭解Paimon的時效性與一致性,詳情請參見Paimon的時效性與一致性。
如果您想要瞭解利用Flink+Paimon構建流式湖倉的方法,詳情請參見基於Flink+Paimon搭建流式湖倉。
建立Paimon Catalog
Paimon Catalog可以方便地管理同一個目錄下的所有Paimon表,並與其它阿里雲產品連通。我們支援通過Paimon Catalog建立並操作Paimon表。
如果您想要建立並使用Paimon Catalog,詳情請參見管理Paimon Catalog。
如果您想要將Paimon表的中繼資料同步至資料湖構建DLF,詳情請參見建立Paimon DLF Catalog。
如果您想要在雲原生MaxCompute中同步建立Paimon外表,以便後續從MaxCompute中對Paimon表進行查詢,詳情請參見建立Paimon MaxCompute Catalog。
如果您想要同時將Paimon表的中繼資料同步至DLF,並在MaxCompute中建立Paimon外表,詳情請參見建立Paimon Sync Catalog。
建立Paimon表
如果您想要在Paimon Catalog中建立Paimon表,詳情請參見管理Paimon表。
如果您想要利用CREATE TABLE AS(CTAS)語句或CREATE DATABASE AS(CDAS)語句,從MySQL、訊息佇列Kafka等資料來源將表同步到Paimon Catalog中,詳情請參見通過CREATE TABLE AS(CTAS)語句或REATE DATABASE AS(CDAS)語句建立表。
向Paimon表寫入資料
如果您想要往Paimon表寫入資料或更新資料,詳情請參見向Paimon表寫入資料。
如果您想要在Paimon表中進行資料的打寬和彙總等操作,詳情請參見資料合併機制。
如果您想要覆寫Paimon表的分區,或覆寫整張Paimon表,詳情請參見通過INSERT OVERWRITE語句覆寫資料。
如果您想要從Paimon表中刪除資料或部分分區,詳情請參見通過DELETE語句刪除資料。
如果您想要刪除Paimon表的部分分區,詳情請參見修改表結構。
從Paimon表消費資料
如果您想要從Paimon表中查詢或消費資料,詳情請參見從Paimon表消費資料。如果您想要對Paimon主鍵表進行流式消費,請先瞭解變更資料產生機制。
如果您想要從指錨點開始流式消費Paimon表,詳情請參見從指錨點消費Paimon表。
如果您想儲存Paimon表的消費進度,或防止正在被流式消費的快照檔案因到期被刪除,詳情請參見指定Consumer ID。
如果您想要利用批作業查詢Paimon表過去的狀態,詳情請參見Batch Time Travel。
Paimon表的維護
如果您想要瞭解Paimon的常見問題,詳情請參見上下遊儲存。
如果您想要瞭解讀寫Paimon表的常見最佳化,詳情請參見Paimon效能最佳化。
如果您想要查詢Paimon表目前有哪些分區,檔案總數是多少等資料,詳情請參見Paimon系統資料表。
如果您想要修改Paimon Catalog表結構,例如增加一列,或修改列名等,詳情請參見修改表結構。
如果您想要刪除Paimon Catalog表,詳情請參見刪除Paimon Catalog表。
如果您想要調整Paimon的分桶數量,詳情請參見調整固定分桶表的分桶數量。
如果您想要清理表目錄下的廢棄檔案,詳情請參見清理到期資料。