全部產品
Search
文件中心

E-MapReduce:基本概念

更新時間:Sep 15, 2024

本文匯總使用EMR Serverless Spark過程中涉及的基本概念,方便查詢和瞭解EMR Serverless Spark。

概念

說明

工作空間(Workspace)

工作空間是EMR Serverless Spark為業務開發劃分的基本單元,是任務、資源和許可權的集合。每個工作空間的任務、計算資源以及許可權都是隔離的。

資源隊列(Resouce Queue)

EMR Serverless Spark採用CU(Compute Unit)作為其基本計量單位。更多CU資訊,請參見產品計費

對於單個Spark計算節點,無論是Driver還是Executor,其資源分派根據vCore及記憶體配置,可以靈活配備一個或多個CU。平台為每個計算節點配備的本機存放區空間最小為20GiB,最大可達160GiB。一個任務的CU使用量取決於輸入任務的計算複雜度,以及所依賴的資料分布情況。您可以在工作清單中查看一個任務執行個體的CU消耗情況。

會話資源(Spark Session)

會話資源是EMR Serverless Spark工作空間中可用的Spark Session,能夠部署於隊列中,並為使用者提供運行SQL語句和Notebook環境的基礎資源。您可以在會話資源中更改關聯的引擎版本及隊列資訊,並根據實際需求調整Spark參數配置。

發布(Publish)

為了避免修改中的檔案草稿內容影響正常調度任務,您需要在確定任務修改完成後,發布該草稿檔案。該流程主要是將您的開發環境與生產環境隔離。

任務執行個體(JobRun)

在任務編排系統中,Workflow的運行通常會對應一個JobRunID,表示一個任務執行個體。

工作流程(Workflow)

工作流程是指由一系列相關工作群組成的有序流程,每個任務之間有明確的依賴關係和執行順序。

使用者(Account)

使用者是存取控制功能中的概念,支援將RAM使用者添加為成員,並授予相應的許可權,才能操作工作空間中的任務、資源等。

角色(Account Role)

角色是存取控制功能中的概念。多個使用者可以同時存在於一個角色下,一個使用者也可以隸屬於多個角色。給角色授權後,該角色下的所有使用者擁有相同的許可權。