本文介绍创建E-MapReduce(简称EMR)集群的详细操作步骤和相关配置。

前提条件

已完成RAM授权,操作步骤请参见角色授权

操作步骤

  1. 进入创建集群页面。
    1. 登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
      • 地域:创建的集群将会在对应的地域内,一旦创建不能修改。
      • 资源组:默认显示账号全部资源。
    3. 单击创建集群,进行创建。
  2. 配置集群信息。
    创建集群时,您需要对集群进行软件配置、硬件配置和基础配置。
    注意 集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
    1. 软件配置。
      配置项 说明
      集群类型 当前支持的集群类型如下:
      • Hadoop
        • 提供半托管的Hadoop、Hive和Spark离线大规模分布式数据存储和计算。
        • 提供Presto和Impala交互式查询。
        • 提供Oozie和Pig等Hadoop生态圈的组件。
      • Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。
      • Druid:提供半托管式实时交互式分析服务,大数据查询毫秒级延迟,支持多种数据摄入方式,可以与EMR Hadoop、EMR Spark、OSS和RDS等服务搭配组合使用,构建灵活稳健的实时查询解决方案。
      • Presto:是一种开源的交互式查询引擎,提供SQL on everything的能力。用于快速分析查询任何规模的数据,可以支持非关系数据源。
      云原生选项 默认on ECS
      产品版本 默认最新的软件版本。
      必选服务 默认的服务组件,后期可以在管理页面中启停服务。
      可选服务 根据您的实际需求选择其他的一些组件,被选中的组件会默认启动相关的服务进程。
      说明 组件越多,对机器的配置要求也越高,所以在下面的步骤中您需要根据实际的组件数量进行机器选型,否则可能没有足够的资源运行这些服务。
      高级设置
      • Kerberos集群模式:是否开启集群的Kerberos认证功能。默认不开启。通常个人用户集群无需该功能。
      • 软件自定义配置:可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置,详细使用方法请参见软件配置。默认不开启。
    2. 硬件配置。
      区域 配置项 说明
      付费类型 付费类型 默认包年包月。当前支持的付费类型如下:
      • 按量付费:一种后付费模式,即先使用再付费。按量付费是根据实际使用的小时数来支付费用,每小时计费一次,适合短期的测试任务或是灵活的动态任务。
      • 包年包月:一种预付费模式,即先付费再使用。
        说明
        • 建议测试场景下使用按量付费,测试正常后再新建一个包年包月的生产集群正式使用。
        • 包年包月实例还需选择付费时长和是否开启自动续费。默认续费时长为1个月,且未开启自动续费。开启自动续费后,实例到期前7天会执行自动续费操作,续费时长为1个月,详情请参见续费说明
      网络配置 可用区 可用区为在同一地域下的不同物理区域,可用区之间内网互通。通常使用默认的可用区即可。
      网络类型 默认专有网络。
      VPC 选择在该地域的VPC。如果没有可用的VPC,单击创建VPC/子网(交换机)前往新建。
      交换机 选择在对应VPC下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。
      安全组名称 默认选择已有的安全组。安全组详情请参见安全组概述

      您也可以单击新建安全组,然后直接输入安全组名称来新建一个安全组。

      注意 禁止使用ECS上创建的企业安全组。
      高可用 高可用 默认不开启。打开高可用开关,Hadoop集群会有两个或三个Master节点来支持ResourceManager和NameNode的高可用。

      HBase集群原本就支持高可用,只是另一个节点用其中一个Core节点来充当,如果打开高可用,会独立使用一个Master节点来支持高可用,更加的安全可靠。

      实例 选型配置
      • Master实例:主要负责ResourceManager和NameNode等控制进程的部署。
        您可以根据需要选择实例规格,详情请参见实例规格族
        • 系统盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 系统盘大小:根据需要调整磁盘容量,推荐至少120 GB。取值范围为40 ~ 2048 GB。
        • 数据盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 数据盘大小:根据需要调整磁盘容量,推荐至少80 GB。取值范围为40 ~ 32768 GB。
        • Master数量:默认1台。如果开启高可用默认2或者3台。
      • Core实例:主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容。
        • 系统盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 系统盘大小:根据需要调整磁盘容量,推荐至少120 GB。
        • 数据盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 数据盘大小:根据需要调整磁盘容量,推荐至少80 GB。
        • Core数量:默认2台,根据需要调整。
      • Task实例:不保存数据,调整集群的计算力使用。默认不开启,需要时再追加。
    3. 基础配置。
      区域 配置项 说明
      基础信息 集群名称 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
      元数据选择
      • DLF统一元数据(推荐):表示元数据存储在数据湖中。

        数据湖构建(Data Lake Formation,DLF)的元数据管理可以为您提供全托管、免运维、高可用、高性能的统一元数据服务,并且兼容Hive多版本,可以方便的进行HMS间元数据迁移。阿里云数据湖构建的详细信息,请参见产品简介

      • 使用自建RDS:表示使用自建的阿里云RDS作为元数据库,更多信息请参见配置独立RDS MySQL
      • 集群内置MySQL(不推荐):表示元数据存储在集群本地环境的MySQL数据库中。
        说明 该方式仅限在测试场景下使用,因为本地MySQL数据库部署在EMR集群单节点中,不能保证服务高可用,存在稳定性风险。生产场景建议选择DLF统一元数据使用自建RDS方式。
      挂载公网 集群是否挂载弹性公网IP地址,默认不开启。
      说明 创建后如果您需要使用公网IP地址访问,请在ECS上申请开通公网IP地址,详情请参见弹性公网IP中的申请EIP的内容。
      密钥对 关于密钥对的使用详情,请参见SSH密钥对
      密码 设置Master节点的登录密码,密码规则:8~30个字符,且必须同时包含大写字母、小写字母、数字和特殊字符。

      特殊字符包括:感叹号(!)、at(@)、井号(#)、美元符号($)、百分号(%)、乘方(^)、and(&)和星号(*)。

      高级设置 添加用户 添加访问开源大数据软件Web UI的账号。
      权限设置 通过RAM角色为在集群上运行的应用程序提供调用其他阿里云服务所需的必要权限,无需调整,使用默认即可。
      • 服务角色:用户将权限授予EMR服务,允许EMR代表用户调用其他阿里云的服务,例如ECS和OSS。
      • ECS应用角色:当用户的程序在EMR计算节点上运行时,可不填写阿里云AccessKey来访问相关的云服务(例如OSS),EMR会自动申请一个临时AccessKey来授权本次访问。ECS应用角色用于控制这个AccessKey的权限。
      数据盘加密 默认不开启。
      打开加密开关,即启动对集群节点ECS中所有属性为云盘的数据盘进行加密的功能。
      注意 不支持加密本地盘。
      引导操作 可选配置,您可以在集群启动Hadoop前执行您自定义的脚本,详情请参见引导操作
      标签 可选配置,您可以在创建集群时绑定标签,也可以在集群创建完成后,在集群详情页绑定标签,详情请参见设置标签
      资源组 可选配置。详情请参见使用资源组
      说明 页面右边会显示您所创建集群的配置清单以及集群费用。根据不同的付费类型,展示不同的价格信息。
  3. 当所有的信息确认正确有效后,选中服务条款,单击创建
    注意
    • 按量付费集群:立刻开始创建。

      集群创建完成后,集群的状态变为空闲

    • 包年包月集群:先生成订单,在支付完成订单以后集群才会开始创建。