本文為您介紹如何通過阿里雲帳號登入E-MapReduce控制台,基於Kubernetes建立叢集。
前提條件
已完成添加AliyunOSSFullAccess和AliyunDLFFullAccess許可權,詳情請參見授予OSS和DLF許可權。
已建立節點池,詳情請參見建立節點池。
已開通Object Storage Service,詳情請參見開通OSS服務。
操作步驟
在EMR on ACK頁面,單擊建立叢集。
在EMR on ACK頁面,完成叢集相關配置。
參數
描述
地區
建立的叢集會在對應的地區內,一旦建立就不能修改。
叢集類型
支援以下叢集類型:
Shuffle Service:是阿里雲EMR在最佳化計算引擎的Shuffle操作上,推出的向外延展群組件。Shuffle Service通過提供遠端Shuffle服務,使得Spark作業可以運行在無本地碟的節點上,並完美支援了動態資源,非常適合ACK環境下的Spark叢集,詳情請參見Celeborn。
重要當建立Shuffle Service叢集類型時,所關聯ACK叢集的專屬節點池或節點的執行個體規格必須均為巨量資料型或者本地SSD,否則部署RSS失敗。
說明在阿里雲EMR for ACK的使用情境中,針對Shuffle Service類型的叢集,系統內建了一個名為“rss-pvc-clean”的自動化清理任務。這是一個預設的、用於定期或在特定條件下清理不再使用的PVC資源的Job任務,旨在最佳化儲存資源管理,避免無效或冗餘資料持久化導致的儲存空間浪費問題。
Presto:是基於記憶體的分布式SQL互動式查詢引擎。
支援多種資料來源,適合PB級海量資料的複雜分析,以及跨資料來源的查詢。
Spark:是通用的分布式巨量資料處理引擎,提供了ETL、離線批處理和資料建模等能力。
重要建立Spark叢集後,如果您需要關聯集群,則所選產品版本的大版本號碼需要和關聯的Shuffle Service叢集大版本號碼一致。例如,EMR-5.x-ack版本的Spark叢集只能關聯EMR-5.x-ack版本的Shuffle Service叢集。
Flink:是一個在有界或無界資料流上進行有狀態計算分散式處理的計算引擎。Flink on Ack基於EMR on Ack底座與社區Flink Kubernetes Operator 1.0.1版本開發,預設使用Flink官方團隊推出的企業版核心,旨在為使用者提供開箱即用的Flink on K8s體驗。
產品版本
預設最新的軟體版本。
組件版本
展示叢集類型下的組件及組件版本資訊。
ACK叢集
選擇已有的ACK叢集,或者在Container ServiceACK控制台建立ACK叢集。
單擊配置專屬節點,可以配置EMR專屬節點。配置專屬節點可以對節點池或節點打上EMR專屬的汙點和標籤,被配置的節點池或節點只能用於EMR。
說明推薦您使用節點池的方式來配置專屬節點,如果沒有節點池,請建立節點池,詳情請參見建立節點池。
OSS Bucket
選擇已有的Bucket,或者在Object Storage Service控制台建立Bucket。
叢集名稱
叢集的名字,長度限制為1~64個字元,僅可使用中文、字母、數字、中劃線(-)和底線(_)。
單擊建立。
當叢集狀態顯示為運行中時,表示叢集建立成功。