全部产品

开源大数据平台E-MapReduce：Hive

更新时间：Sep 04, 2025

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。

Hive结构

名称	说明
HiveServer2	HiveQL查询服务器，可以配置为Thrift或者HTTP协议，接收来自JDBC客户端提交的SQL请求，支持多客户端并发以及身份验证。
Hive MetaStore	元数据管理模块，此模块被其他引擎所依赖，用于存储Database和Table等元信息。例如，Spark和Presto均依赖此模块作为其元数据管理。
Hive Client	Hive客户端，直接利用该客户端提交SQL作业，根据其设置运行引擎配置，可以将SQL转换成MR作业、Tez作业和Spark作业，该模块在所有EMR节点上均有安装。

Hive功能增强

在各版本的EMR中，Hadoop、Hive版本和EMR集群的配套情况，请参见发行版本。针对开源增强的Hive功能，详见下表。

EMR-5.x系列

EMR版本	组件版本	功能增强
EMR-5.20.0	Hive 3.1.3	优化分区表新增字段性能。
EMR-5.17.4	Hive 3.1.3	支持部署Master-Extend节点组。
EMR-5.12.1	Hive 3.1.3	Hive warehouse支持默认使用OSS-HDFS存储。
EMR-5.9.0	Hive 3.1.3	支持开启Kerberos身份认证。
EMR-5.8.0	Hive 3.1.2	支持一键对接LDAP。
EMR-5.6.0	Hive 3.1.2	修复了TEZ开启Speculation后重复Commit的缺陷。
EMR-5.5.0	Hive 3.1.2	优化了Hive Jindo批量删除的问题。优化了HiveServer2 OOM问题。优化了Hive on Spark。适配JindoSDK。
EMR-5.4.0	Hive 3.1.2	Hive on JindoFS（Block）支持批量元数据优化功能，默认未开启。
EMR-5.3.0	Hive 3.1.2	Hive on JindoFS（Block模式）支持批量元数据优化功能。
EMR-5.2.1	Hive 3.1.2	修复使用DLF元数据执行`show create table`命令，结果显示不正确的问题。优化Hive默认参数，以提升作业性能。修改E-MapReduce控制台上，Hive服务配置页面的hive-env页签的配置项名称为大写，便于用户使用。修复UDF（User Define Function）导致HiveServer2内存泄露的问题。优化文件系统与MetaStore不一致时写Hive表的报错信息。

EMR-3.x系列

EMR版本	组件版本	功能增强
MR-3.51.4	Hive 2.3.9	支持部署Master-Extend节点组。
EMR-3.46.1	Hive 2.3.9	Hive warehouse支持默认使用OSS-HDFS存储。
EMR-3.40.0	Hive 2.3.8	修复了TEZ开启Speculation后重复Commit的缺陷。修复了必须Reload Function才能调用UDF的缺陷。
EMR-3.39.1	Hive 2.3.8	适配JindoSDK。
EMR-3.36.1	Hive 2.3.8	升级Hive至2.3.8版本。修复使用DLF（DataLakeFormation）元数据执行`show create table`命令时，结果显示不正确的问题。优化Hive默认参数，以提升作业性能。修改E-MapReduce控制台上，Hive服务配置页面的hive-env页签的配置项名称为大写，便于用户使用。优化文件系统与MetaStore不一致时写Hive表的报错信息。
EMR-3.35.0	Hive 2.3.7	修复Fetch Task相关的社区问题。
EMR-3.34.0	Hive 2.3.7	优化了部分默认配置。性能优化：增强CBO。支持一键开启或关闭LDAP功能。升级Calcite版本至1.12.0。增加参数hive.security.authorization.sqlstd.confwhitelist.append。
EMR-3.33.0	Hive 2.3.7	升级至2.3.7版本。 HCatalog支持Data Lake Formation。支持Hive元数据和作业运行信息输出至DataWorks。
EMR-3.32.0	Hive 2.3.5	修复了HiveServer连接池泄漏的问题。 JindoTable支持打开或关闭数据采集功能。优化`ADD COLUMN`的性能。修复了读取HUDI表时数据不正确的问题。默认的参数配置，可以根据集群节点大小调整。
EMR-3.30.0	Hive 2.3.5	支持阿里云DLF（Data Lake Formation）元数据。解决了读Delta表空目录时写DUMMY文件问题。升级HAS依赖至2.0.1。
EMR-3.29.0	Hive 2.3.5	Hive升级至2.3.5.6.0。支持第三方Metastore的功能。增加datalake metastore-client。
EMR-3.28.0	Hive 2.3.5	支持Delta 0.6.0版本。
EMR-3.27.2	Hive 2.3.5	hcatalog表支持magic committer。移除一些过时的默认配置。
EMR-3.26.3	Hive 2.3.5	hcatalog表支持direct committer。
EMR-3.25.0	Hive 2.3.5	修复自动LOCAL模式下MR任务执行失败的问题
EMR-3.24.0	Hive 2.3.5	增加SQL兼容性检查功能逻辑。 Hive2.3.5+Hadoop2.8.5组合发布。重启组件时不同步hiveserver2-site.xml中的内容至spark-conf下的hive-site.xml。支持使用MSCK命令添加增量目录。修复Hive复用tez container时出现的bug。支持使用MSCK命令优化列目录。
EMR-3.23.0	Hive 2.3.5	删除老版本的hive hook。添加支持多个count distinct字段的数据倾斜处理优化。解决join不同bucketversion的表时丢数据的问题。
EMR-3.23.0之前版本	Hive 2.x	外部统一数据库保存至Hive Meta，所有使用外部Hive Meta的集群共享同一份Meta信息。

EMR-4.x系列

EMR版本	组件版本	功能增强
EMR-4.10.0	Hive 3.1.2	修复了Hue查询历史记录时，中文乱码的问题。修复了Hue与Oozie集成使用时界面显示的问题。修复YARN Job Browser在部分情况下无法正常展示和终止作业的问题。默认配置中放开YARN Job Browser。默认配置中支持Presto协议。
EMR-4.8.0	Hive 3.1.2	优化了部分默认配置。性能优化：增强CBO。支持一键开启或关闭LDAP功能。
EMR-4.6.0	Hive 3.1.2	HCatalog支持Data Lake Formation。支持Hive元数据和作业运行信息输出至DataWorks。
EMR-4.5.0	Hive 3.1.2	支持数据湖构建（DLF）元数据。支持Ranger Ownership权限。
EMR-4.4.1	Hive 3.1.2	优化默认的参数配置。
EMR-4.4.0	Hive 3.1.2	升级至3.1.2版本。优化JindoFS。优化MSCK。 HCatalog支持JindoCommitter。升级HAS依赖。
EMR-4.3.0	Hive 3.1.1	支持自定义部署。

Hive语法

EMR产品最大程度的保持了开源社区的语法以及体验，在Hive语法上保持与开源社区Hive语法100%的兼容性。

关于Apache Hive的更多介绍，请参见Apache Hive官网。

相关文档

如何使用Hive客户端连接Hive，请参见Hive连接方式。
Hive服务身份认证，请参见使用Kerberos认证和使用LDAP认证。
Hive访问数据湖数据，请参见Hive访问Delta Lake和Hudi数据。
Hive作业常见的调优方法，请参见Hive作业调优。
Hive作业常见问题排查，请参见Hive作业异常排查及处理。