Hive是一個基於Hadoop的資料倉儲架構,在巨量資料業務情境中,主要用來進行資料提取、轉化和載入(ETL)以及中繼資料管理。
背景資訊
E-MapReduce(簡稱EMR)版本中,Hadoop、Hive版本和EMR叢集的配套情況,請參見版本概述。
Hive結構
名稱 | 說明 |
HiveServer2 | HiveQL查詢服務器,可以配置為Thrift或者HTTP協議,接收來自JDBC用戶端提交的SQL請求,支援多用戶端並發以及身分識別驗證。 |
Hive MetaStore | 中繼資料管理模組,此模組被其他引擎所依賴,用於儲存Database和Table等元資訊。例如,Spark和Presto均依賴此模組作為其中繼資料管理。 |
Hive Client | Hive用戶端,直接利用該用戶端提交SQL作業,根據其設定運行引擎配置,可以將SQL轉換成MR作業、Tez作業和Spark作業,該模組在所有EMR節點上均有安裝。 |
Hive文法
EMR產品最大程度的保持了開源社區的文法以及體驗,在Hive文法上保持與開源社區Hive文法100%的相容性。
關於Apache Hive的更多介紹,請參見Apache Hive官網。