全部产品
Search
文档中心

开源大数据平台E-MapReduce:EMR-4.10.x版本说明

更新时间:Apr 27, 2023

本文介绍EMR-4.10.x发行版本的发布日期和更新内容信息。

发布日期

EMR-4.10.0 2022年3月23日

更新内容

服务

变更点

SmartData

组件下线。

BIGBOOT

JindoSDK

  • 升级架构为JindoData。

  • EMR首次集成JindoSDK 4.0,支持OSS和OSS-HDFS服务等。

Spark

  • 升级至2.4.8版本。

  • 修复了Adaptive Execution部分场景无法生效的问题。

  • 修复了统计聚合函数行为和Hive不一致的问题。

  • 修复了读取Hive ORC表char类型数据正确性问题。

  • 优化了Thriftserver的默认配置。

  • 优化E-MapReduce控制台上,Spark服务配置页面的spark-defaults页签的配置项名称。

  • 优化了Hive on Spark。

  • 修复了AQE在Stats缺失情况下数组越界的问题。

  • 修复了AQE和Cache在特定场景下报错的问题。

  • 移除了无效配置Log4j MetricsAppender。

  • 修复了SparkContext启动过程中空指针异常的问题。

  • 支持ZSTD(Zstandard)压缩格式。

Hive

  • 修复了UDF导致HiveServer2内存泄露的问题。

  • 修复了使用DLF(DataLakeFormation)元数据执行show create table命令时,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改了E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

  • Hive on JindoFS(Block)支持批量元数据优化功能,默认未开启。

Ranger

  • 修复了Ranger启用Spark日志中的Warning报错。

  • 修复了对接LDAP后,自动同步用户失败的问题。

HDFS

  • 支持ZSTD(Zstandard)压缩格式。

  • NameNode预留空间默认参数自适应增加,保证磁盘空间不足时, NameNode及时进入SafeMode。

YARN

  • 节点Containers REST API增加了appId,CPU和Memory资源使用信息。

  • 修复了弹性伸缩释放节点上AM日志无法查看的问题。

  • 修复了State Store历史数据造成集群不可用的问题。

  • 支持弹性伸缩Decommission后清理释放的节点。

  • 完善了弹性伸缩Graceful Decommission的操作逻辑,待NM(NodeMananger)进程结束后再标记下线完成。

Knox

  • 适配Kudu组件。

  • 适配HBase组件。

  • 修复了Spark Task第一次访问时失败的问题。

Tez

优化了Tez默认参数,以提升作业性能。

Sqoop

修复了Sqoop导入HCatalog表时,Decimal类型精度丢失的问题。

Delta Lake

  • 元数据管理

    • 使用Spark内置Catalog替代Hive CLI API同步元数据及分区信息。

    • 自动上报表的统计信息(dataProfiling)到MetaStore。

  • SQL

    • 支持Time Travel语法。

    • 支持DropPartition SQL语法。

    • 支持指定位置(FIRST和AFTER)的ADD COLUMN操作。

  • 表管理能力增强

    • 支持并默认开启可以根据表大小动态调整filesize。

    • 支持并默认开启自动Vacuum,支持并发Vacuum。

    • 优化了自动Compaction的逻辑,默认关闭。

    • 新增Zorder语法,并加速了Zorder的处理过程。

Hudi

  • 升级至0.10.0版本。

  • 修复了DeltaLake和Hudi的sql.extension的兼容性问题。

Iceberg

新增组件。

版本为0.13.0。

Hue

  • 修复了Hue查询历史记录时,中文乱码的问题。

  • 修复了Hue与Oozie集成使用时界面显示的问题。

  • 修复YARN Job Browser在部分情况下无法正常展示和终止作业的问题。

  • 默认配置中放开YARN Job Browser。

  • 默认配置中支持Presto协议。

DLF-Auth

新增组件。

版本为1.0.4。

HBase

  • 修复了高安全集群重启HBase耗时过长的问题。

  • 修复了Spark 3.1.1版本与HBase集成使用时失败的问题。

  • 优化了Graceful Stop流程。

Zookeeper

升级至社区3.6.3版本。

Presto

  • 升级Presto至社区358版本。

  • 支持UDF动态加载功能,详情请参见动态加载UDF

  • 支持数据湖分析。

Impala

  • 修复了直接删除OSS分区目录出现list目录循环的问题。

  • 修复了查询DLF元数据表时,提示no such method error的问题。

Zeppelin

升级Zeppelin至社区0.10.0版本。

Oozie

修复了HA情况下Oozie的Jetty Server依赖JAR包冲突,导致Jetty Server无法启动的问题。

发行版本信息

Hadoop集群

服务

版本

HDFS

3.2.1

YARN

3.2.1

Hive

3.1.2

Spark

2.4.8

Knox

1.1.0

Tez

0.9.2

Ganglia

3.7.2

Sqoop

1.4.7

DLF-Auth

1.0.4

Iceberg

0.13.0

Hudi

0.10.0

DeltaLake

0.6.1

OpenLDAP

2.4.44

Hue

4.9.0

JindoSDK

4.0.0

HBase

2.3.4

Zookeeper

3.6.3

Presto

358

Impala

3.4.0

Zeppelin

0.10.2

Flume

1.9.0

Livy

0.7.1

Superset

0.36.0

Ranger

2.1.0

RSS

1.0.0

Alluxio

2.5.0

Kudu

1.14.0

Oozie

5.2.1