在阿里雲E-MapReduce(簡稱EMR)體系中,Gateway執行個體扮演著至關重要的角色。它可以作為一個獨立的作業提交點,關聯到已有的叢集。本文為您介紹如何在已有的EMR叢集基礎上建立Gateway叢集和Gateway節點群組。
Gateway叢集或Gateway節點群組通常是一個獨立的叢集或節點群組,由多台相同配置的Gateway執行個體組成,叢集上會部署HDFS、YARN、Hive、Spark2、Spark3、JindoSDK、Flink、Sqoop、Impala、Presto、Hudi、Iceberg、Tez和Deltalake等用戶端。未建立Gateway叢集或Gateway節點群組時,Hadoop等叢集的作業是在本叢集的Master或Core節點上提交的,會佔用本叢集的資源。建立Gateway叢集後,您可以通過Gateway叢集來提交其關聯的叢集的作業,這樣既不會佔用關聯集群的資源,又可以提高關聯集群Master或Core節點的穩定性,尤其是Master節點。
每一個Gateway叢集或Gateway節點群組均支援獨立的環境配置。例如,在多個部門共用一個叢集的情境下,您可以為這個叢集建立多個Gateway叢集或Gateway節點群組,以滿足不同部門的業務需求。建立Gateway叢集和Gateway節點群組的具體操作請參見以下文檔。
建立Gateway叢集
叢集類型
文檔連結
Hadoop
DataLake、DataFlow和OLAP
建立Gateway節點群組
僅EMR-5.10.1及以上版本的DataLake和DataFlow叢集,支援增加Gateway類型的節點群組,詳情請參見管理節點群組。