本文为您介绍2022年3月4日发布的实时计算Flink版的重大功能变更和主要缺陷修复。
概述
2022年3月4日正式对外发布VVR 4.0.12版本,该版本是基于Apache Flink 1.13。在本次新版本中,对于常见的Kafka->Flink->Hologres链路,我们支持JSON Schema变化自适应;在数据湖构建上,我们发布了企业级Hudi连接器;在开发效能提升上,我们提供了超过二十种常见的Flink SQL作业模板;在运维服务能力增强上我们提供了强大的作业诊断能力和不停止作业,可动态调整日志级别的能力;还包含了Clickhouse的企业级特性、新的连接器、新的数据入仓入湖语法特性等诸多强大且丰富的数据处理能力。另外,本次新版本还同步修改了若干已在Apache Flink社区修复的缺陷。
新特性
特性 | 详情 | 相关文档 |
Hologres自适应JSON Schema结构变化 | JSON作为流式数据处理中最为常见的Event格式之一,其Schema的变化对于实时流作业及其后端的存储引擎中的表而言,都希望是一个透明的过程。 在本次新版本中,我们对于该需求进行了以下增强:
| |
增强Iceberg和Hudi数据湖的构建能力 |
| |
提升日志查看和设置的易用性 |
| |
提供Flink+Clickhouse多个企业级特性 |
| |
优化作业诊断规则和界面 |
| |
数据同步支持新增计算列 | CTAS语句支持在Source表上新增计算列,并修改目标表的主键为新增列。 在进行数据入仓入湖时,CTAS语句允许指定新增计算列的位置,并把它作为目标表的物理列,实时地将计算列的结果同步到目标表中。同时,CTAS语句也支持修改目标表的主键,把新增列作为目标表的主键字段。 | |
更便捷地生成测试数据 | 新增支持模拟数据生成连接器。 通过模拟数据生成连接器,您可以更便捷地生成贴近业务含义的测试数据,满足您开发测试中验证业务逻辑的需要。 | |
新增模板中心,加速作业开发 |
| |
更清晰地展示资源使用情况 | 在Flink开发控制台页面左下角,会展示当前项目空间下使用的CPU和Memory情况,方便您快速管理项目资源。 | 无 |
快速定位Checkpoint慢节点的日志 | 在快照历史中,新增对节点快照状态的排序能力,并支持在快照历史界面一键跳转到TM日志中,查看慢Checkpoint原因。 | |
支持云原生数据仓库AnalyticDB PostgreSQL版结果表和维表 |
| |
提升企业级状态存储后端易用性 |
|
性能优化
企业级状态存储后端在本次新版本中包含了大量优化,极大提升了双流或多流Join作业的性能,计算资源利用率平均可以提升50%,典型场景下可以提升100% ~ 200%,帮助您更平滑地运行有状态的流计算应用。
缺陷修复
优化Catalog服务,解决数据库或表数量较大时刷新不出来的问题。
修复Session集群没有显示Flink版本的问题。
修复Metric页面WaterMarkLag曲线显示问题。
优化Metric页面曲线翻页展示效果。
修复Flink CDC currentFetchEventTimeLag指标、类冲突等问题。
修复CTAS语法无法修改已有列的问题。