本文匯總使用EMR Serverless Spark過程中涉及的基本概念,方便查詢和瞭解EMR Serverless Spark。
概念 | 說明 |
工作空間(Workspace) | 工作空間是EMR Serverless Spark為業務開發劃分的基本單元,是任務、資源和許可權的集合。每個工作空間的任務、計算資源以及許可權都是隔離的。 |
資源隊列(Resouce Queue) | EMR Serverless Spark採用CU(Compute Unit)作為其基本計量單位。更多CU資訊,請參見產品計費。 對於單個Spark計算節點,無論是Driver還是Executor,其資源分派根據vCore及記憶體配置,可以靈活配備一個或多個CU。平台為每個計算節點配備的本機存放區空間最小為20GiB,最大可達160GiB。一個任務的CU使用量取決於輸入任務的計算複雜度,以及所依賴的資料分布情況。您可以在工作清單中查看一個任務執行個體的CU消耗情況。 |
會話資源(Spark Session) | 會話資源是EMR Serverless Spark工作空間中可用的Spark Session,能夠部署於隊列中,並為使用者提供運行SQL語句和Notebook環境的基礎資源。您可以在會話資源中更改關聯的引擎版本及隊列資訊,並根據實際需求調整Spark參數配置。 |
發布(Publish) | 為了避免修改中的檔案草稿內容影響正常調度任務,您需要在確定任務修改完成後,發布該草稿檔案。該流程主要是將您的開發環境與生產環境隔離。 |
任務執行個體(JobRun) | 在任務編排系統中,Workflow的運行通常會對應一個JobRunID,表示一個任務執行個體。 |
工作流程(Workflow) | 工作流程是指由一系列相關工作群組成的有序流程,每個任務之間有明確的依賴關係和執行順序。 |
使用者(Account) | 使用者是存取控制功能中的概念,支援將RAM使用者添加為成員,並授予相應的許可權,才能操作工作空間中的任務、資源等。 |
角色(Account Role) | 角色是存取控制功能中的概念。多個使用者可以同時存在於一個角色下,一個使用者也可以隸屬於多個角色。給角色授權後,該角色下的所有使用者擁有相同的許可權。 |