Spark SQL作业配置 - 开源大数据平台E-MapReduce

本文介绍如何配置Spark SQL类型的作业。

前提条件

已创建好项目，详情请参见项目管理。

进入数据开发的项目列表页面。
1. 通过阿里云账号登录阿里云E-MapReduce控制台。
2. 在顶部菜单栏处，根据实际情况选择地域和资源组。
3. 单击上方的数据开发页签。
单击待编辑项目所在行的作业编辑。

新建Spark SQL类型作业。

在新建作业对话框中，输入作业名称和作业描述，从作业类型下拉列表中选择Spark SQL作业类型。

说明 Spark SQL提交作业的模式默认是Yarn-client模式。

此类型的作业，实际是通过以下方式提交的Spark SQL作业运行。

spark-sql [options] [cli options] {SQL_CONTENT}

参数描述如下表。


参数	说明
options	在作业设置面板的高级设置页签，单击环境变量所在行的图标，添加环境变量SPARK_CLI_PARAMS，例如`SPARK_CLI_PARAMS="--executor-memory 1g --executor-cores"`。
cli options	示例如下： `-e <quoted-query-string>` ：表示运行引号内的SQL查询语句。 `-f <filename>`：表示运行文件中的SQL语句。
SQL_CONTENT	填写的SQL语句。

编辑作业内容。

在作业内容中，输入Spark SQL语句。

示例如下。

-- SQL语句示例。
-- SQL语句最大不能超过64 KB。
show databases;
show tables;
-- 系统会自动为SELECT语句加上'limit 2000'的限制。
select * from test1;