本文為您介紹2022年3月4日發布的Realtime ComputeFlink版的重大功能變更和主要缺陷修複。
概述
2022年3月4日正式對外發布VVR 4.0.12版本,該版本是基於Apache Flink 1.13。在本次新版本中,對於常見的Kafka->Flink->Hologres鏈路,我們支援JSON Schema變化自適應;在資料湖構建上,我們發布了企業級Hudi連接器;在開發效能提升上,我們提供了超過二十種常見的Flink SQL工作範本;在營運服務能力增強上我們提供了強大的作業診斷能力和不停止作業,可動態調整記錄層級的能力;還包含了Clickhouse的企業級特性、新的連接器、新的資料入倉入湖文法特性等諸多強大且豐富的資料處理能力。另外,本次新版本還同步修改了若干已在Apache Flink社區修複的缺陷。
新特性
特性 | 詳情 | 相關文檔 |
Hologres自適應JSON Schema結構變化 | JSON作為流式資料處理中最為常見的Event格式之一,其Schema的變化對於即時資料流作業及其後端的儲存引擎中的表而言,都希望是一個透明的過程。 在本次新版本中,我們對於該需求進行了以下增強:
| |
增強Iceberg和Hudi資料湖的構建能力 |
| |
提升日誌查看和設定的易用性 |
| |
提供Flink+Clickhouse多個企業級特性 |
| |
最佳化作業診斷規則和介面 |
| |
資料同步支援新增計算資料行 | CTAS語句支援在Source表上新增計算資料行,並修改目標表的主鍵為新增列。 在進行資料入倉入湖時,CTAS語句允許指定新增計算資料行的位置,並把它作為目標表的物理列,即時地將計算資料行的結果同步到目標表中。同時,CTAS語句也支援修改目標表的主鍵,把新增列作為目標表的主鍵欄位。 | |
更便捷地產生測試資料 | 新增支援類比資料產生連接器。 通過類比資料產生連接器,您可以更便捷地產生貼近業務含義的測試資料,滿足您開發測試中驗證商務邏輯的需要。 | |
新增模板中心,加速作業開發 |
| |
更清晰地展示資源使用方式 | 在Flink開發控制台頁面左下角,會展示當前專案空間下使用的CPU和Memory情況,方便您快速管理專案資源。 | 無 |
快速定位Checkpoint慢節點的日誌 | 在快照歷史中,新增對節點快照狀態的排序能力,並支援在快照歷史介面一鍵跳轉到TM日誌中,查看慢Checkpoint原因。 | |
支援雲原生資料倉儲AnalyticDB PostgreSQL版結果表和維表 |
| |
提升企業級狀態儲存後端易用性 |
|
效能最佳化
企業級狀態儲存後端在本次新版本中包含了大量最佳化,極大提升了雙流或多流Join作業的效能,計算資源使用率平均可以提升50%,典型情境下可以提升100% ~ 200%,協助您更平滑地運行有狀態的Realtime Compute應用。
缺陷修複
最佳化Catalog服務,解決資料庫或表數量較大時重新整理不出來的問題。
修複Session叢集沒有顯示Flink版本的問題。
修複Metric頁面WaterMarkLag曲線顯示問題。
最佳化Metric頁面曲線翻頁展示效果。
修複Flink CDC currentFetchEventTimeLag指標、類衝突等問題。
修複CTAS文法無法修改已有列的問題。