Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。
背景信息
E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR集群的配套情况,请参见版本概述。
Hive结构
名称 | 说明 |
HiveServer2 | HiveQL查询服务器,可以配置为Thrift或者HTTP协议,接收来自JDBC客户端提交的SQL请求,支持多客户端并发以及身份验证。 |
Hive MetaStore | 元数据管理模块,此模块被其他引擎所依赖,用于存储Database和Table等元信息。例如,Spark和Presto均依赖此模块作为其元数据管理。 |
Hive Client | Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将SQL转换成MR作业、Tez作业和Spark作业,该模块在所有EMR节点上均有安装。 |
Hive语法
EMR产品最大程度的保持了开源社区的语法以及体验,在Hive语法上保持与开源社区Hive语法100%的兼容性。
关于Apache Hive的更多介绍,请参见Apache Hive官网。