全部產品
Search
文件中心

Realtime Compute for Apache Flink:2022-03-04版本

更新時間:Jul 13, 2024

本文為您介紹2022年3月4日發布的Realtime ComputeFlink版的重大功能變更和主要缺陷修複。

概述

2022年3月4日正式對外發布VVR 4.0.12版本,該版本是基於Apache Flink 1.13。在本次新版本中,對於常見的Kafka->Flink->Hologres鏈路,我們支援JSON Schema變化自適應;在資料湖構建上,我們發布了企業級Hudi連接器;在開發效能提升上,我們提供了超過二十種常見的Flink SQL工作範本;在營運服務能力增強上我們提供了強大的作業診斷能力和不停止作業,可動態調整記錄層級的能力;還包含了Clickhouse的企業級特性、新的連接器、新的資料入倉入湖文法特性等諸多強大且豐富的資料處理能力。另外,本次新版本還同步修改了若干已在Apache Flink社區修複的缺陷。

新特性

特性

詳情

相關文檔

Hologres自適應JSON Schema結構變化

JSON作為流式資料處理中最為常見的Event格式之一,其Schema的變化對於即時資料流作業及其後端的儲存引擎中的表而言,都希望是一個透明的過程。

在本次新版本中,我們對於該需求進行了以下增強:

  • 在消費JSON前,可以根據JSON的Schema進行表結構的設定。

  • 在後續持續消費時,如果JSON的Schema發生變化,後端Hologres表的Schema也會根據此變化而變化。

增強Iceberg和Hudi資料湖的構建能力

  • 支援阿里雲DLF作為Catalog。

    通過DLF Catalog,您可以訪問Hudi或Iceberg以及其他DLF支援的引擎,協助您快速構建即時資料湖。

  • 支援最佳化Iceberg表的小檔案。

    通過AUTO OPTIMIZE語句,啟動一個流式最佳化任務,自動地將Iceberg表的若干小檔案重寫為大檔案。

  • 推出Realtime ComputeFlink版內建企業級Hudi連接器,降低營運複雜度。

    • 支援使用Flink CDC打通資料庫整庫入湖,並自動同步表結構變更。

    • 整合阿里雲OSS和DLF等組件,完善資料在計算引擎間的連通性。

提升日誌查看和設定的易用性

  • 新增日誌分頁顯示。

    在作業探查頁簽中,新增日誌分頁的能力,避免作業長期運行會導致日誌過大頁面無法開啟的問題。

  • 支援動態修改記錄層級。

    在不重啟作業的前提下,可以在作業探查頁簽中,動態修改運行中的TM的記錄層級,以滿足您定位問題的需求。

  • 支援查看失敗的TM日誌。

    在作業探查頁簽中,支援展示JM還在運行情況下已經失敗的TM的日誌,方便您排查TM失敗的原因。

提供Flink+Clickhouse多個企業級特性

  • 支援Exactly Once語義。

    針對開源巨量資料平台E-MapReduce中的ClickHouse組件(非雲Clickhouse產品)提供Exactly Once語義。

  • 支援ClickHouse的Nested類型。

    對於ClickHouse的Nested類型,可以將其映射為Flink的Array類型。

  • 支援直接寫ClickHouse分布式表的本地表。

    通過對分布式表的本地表進行直接寫入的方式,可以顯著提高寫ClickHouse分布式表的輸送量。

ClickHouse結果表

最佳化作業診斷規則和介面

  • 新增20多種診斷規則,全面分析作業的運行狀態。

    根據作業的實際情況,給出高、中、低三種風險等級提示。

  • 最佳化診斷介面的,協助您更好地查看問題。

作業智能診斷

資料同步支援新增計算資料行

CTAS語句支援在Source表上新增計算資料行,並修改目標表的主鍵為新增列。

在進行資料入倉入湖時,CTAS語句允許指定新增計算資料行的位置,並把它作為目標表的物理列,即時地將計算資料行的結果同步到目標表中。同時,CTAS語句也支援修改目標表的主鍵,把新增列作為目標表的主鍵欄位。

CREATE TABLE AS(CTAS)語句

更便捷地產生測試資料

新增支援類比資料產生連接器。

通過類比資料產生連接器,您可以更便捷地產生貼近業務含義的測試資料,滿足您開發測試中驗證商務邏輯的需要。

新增模板中心,加速作業開發

  • 提供20多種代碼模板。

    20多個Flink SQL常見通用情境的模板,協助您快速瞭解如何使用Flink SQL構建作業代碼。

  • 提供MySQL到Hologres資料同步模板。

    協助您快速建立Flink CDC作業,完成資料同步入倉入湖。

更清晰地展示資源使用方式

在Flink開發控制台頁面左下角,會展示當前專案空間下使用的CPU和Memory情況,方便您快速管理專案資源。

快速定位Checkpoint慢節點的日誌

在快照歷史中,新增對節點快照狀態的排序能力,並支援在快照歷史介面一鍵跳轉到TM日誌中,查看慢Checkpoint原因。

定位慢Checkpoint並查看對應Task Managers的日誌

支援雲原生資料倉儲AnalyticDB PostgreSQL版結果表和維表

  • Flink支援將資料寫入雲原生資料倉儲AnalyticDB PostgreSQL版結果表

  • Flink支援關聯雲原生資料倉儲AnalyticDB PostgreSQL版,進行關聯查詢。

提升企業級狀態儲存後端易用性

  • 新增即時進行參數最佳化調整的能力,最大化降低人工調優的複雜度和成本,可以避免95%以上人工調參的需要。

  • 單核吞吐能力提升10%~40%,協助您輕鬆應對流量洪峰與低穀等變化情境。

效能最佳化

企業級狀態儲存後端在本次新版本中包含了大量最佳化,極大提升了雙流或多流Join作業的效能,計算資源使用率平均可以提升50%,典型情境下可以提升100% ~ 200%,協助您更平滑地運行有狀態的Realtime Compute應用。

缺陷修複

  • 最佳化Catalog服務,解決資料庫或表數量較大時重新整理不出來的問題。

  • 修複Session叢集沒有顯示Flink版本的問題。

  • 修複Metric頁面WaterMarkLag曲線顯示問題。

  • 最佳化Metric頁面曲線翻頁展示效果。

  • 修複Flink CDC currentFetchEventTimeLag指標、類衝突等問題。

  • 修複CTAS文法無法修改已有列的問題。