在阿里雲E-MapReduce(簡稱EMR)體系中,Gateway執行個體扮演著至關重要的角色。它可以作為一個獨立的作業提交點,關聯到已有的叢集。本文為您介紹如何在已有的EMR叢集基礎上建立Gateway叢集和Gateway節點群組。
Gateway叢集或Gateway節點群組通常是一個獨立的叢集或節點群組,由多台相同配置的Gateway執行個體組成,叢集上會部署HDFS、YARN、Hive、Spark2、Spark3、JindoSDK、Flink、Sqoop、Impala、Presto、Hudi、Iceberg、Tez和Deltalake等用戶端。未建立Gateway叢集或Gateway節點群組時,Hadoop等叢集的作業是在本叢集的Master或Core節點上提交的,會佔用本叢集的資源。建立Gateway叢集後,您可以通過Gateway叢集來提交其關聯的叢集的作業,這樣既不會佔用關聯集群的資源,又可以提高關聯集群Master或Core節點的穩定性,尤其是Master節點。
每一個Gateway叢集或Gateway節點群組均支援獨立的環境配置。例如,在多個部門共用一個叢集的情境下,您可以為這個叢集建立多個Gateway叢集或Gateway節點群組,以滿足不同部門的業務需求。您可以根據叢集類型和版本選擇建立Gateway叢集或Gateway節點群組,具體操作請參見以下文檔。
叢集類型 | 文檔連結 | |
Hadoop | ||
DataLake和DataFlow叢集 | EMR-5.10.1及以上版本 | 支援增加Gateway類型的節點群組,詳情請參見管理節點群組。 |
EMR-5.10.1以下版本 | ||
OLAP |