全部产品
Search
文档中心

开源大数据平台E-MapReduce:管理运行环境

更新时间:Dec 24, 2024

Notebook当前已默认安装matplotlib、numpy和pandas。如果您需要使用其他第三方库,可以创建运行环境。

前提条件

已创建工作空间,详情请参见管理工作空间

创建运行环境

  1. 进入运行环境管理页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > Spark

    3. Spark页面,单击目标工作空间名称。

    4. EMR Serverless Spark页面,选择左侧导航栏中的运行环境管理

  2. 单击创建运行环境

  3. 创建运行环境页面,配置以下参数。

    参数

    说明

    名称

    填写运行环境的名称。

    描述

    填写该环境的描述。

    部署队列

    选择初始化环境所需的队列。创建运行环境时,将占用该队列1Core 4 GB资源用于初始化环境,初始化完成后,资源将自动释放。

  4. 添加库信息。

    1. 单击添加库

    2. 新建库中,选择来源类型,配置相关的参数,然后单击确定

      参数

      说明

      PyPI

      PyPI Package中填写库的名称及版本,不指定版本时,默认安装最新版本。默认使用阿里云源地址

      例如,PlotlyPlotly==4.9.0

      工作空间资源

      工作空间资源下拉列表中,选择当前工作空间的文件资源。如果没有可选的资源,请在文件管理页面上传。

      支持的文件类型:.zip.tar.whl.tar.gz.jar

      OSS资源

      OSS资源中,填写在阿里云OSS中存储的文件路径。

      支持的文件类型:.zip.tar.whl.tar.gz.jar

  5. 单击创建

    创建后将开始初始化环境。

编辑运行环境

如果您需要更新运行环境,可以使用编辑功能对运行环境中包含的库进行更新。

  1. 运行环境管理页面,单击目标运行环境操作列的编辑

  2. 编辑运行环境页面,您可以更新运行环境配置项。

  3. 单击保存更改

    保存更改后将基于当前配置重新初始化环境。

    说明

    重新初始化环境后,变更不会立即在已使用该环境的Notebook会话中生效。如需在Notebook会话中使用最新的运行环境,请重启Notebook会话资源。

使用运行环境

一旦创建的运行环境处于就绪状态,即可在数据开发或相应的会话中使用该运行环境。

  • PySpark批任务:任务启动时,系统会根据所选的运行环境预装必要的库。

  • 任务编排:当在工作流中添加Notebook节点时,可以选择相应的运行环境。

  • Notebook会话:Notebook会话启动时将按照所选环境预装库。

  • Livy Gateway:通过Livy Gateway提交任务时,任务运行所需的资源将根据所选环境进行预配置。

  • 在使用Apache Airflow和Livy提交任务时,可以通过配置参数--conf spark.emr.serverless.environmentId=<运行环境id>来指定运行环境。