本文以HIVECLI任务类型为例,为您介绍如何快速使用EMR Workflow。
前提条件
已完成系统角色授权,详情请参见EMR Workflow角色授权。
已在EMR on ECS页面创建集群,详情请参见创建集群。
支持的集群类型为DataLake、Hadoop和Custom。
操作步骤
步骤一:绑定EMR集群
在左侧导航栏,选择EMR Studio > Workflow。
单击上方的安全中心页签。
在集群管理页面,单击绑定集群。
在弹出的对话框中,选择相应的集群类型,集群ID和交换机ID,单击确定。
您可以通过刷新页面来查看进度,当状态显示为已绑定时,表示完成集群的绑定。
说明绑定集群大约需要5~10分钟,请耐心等待。
步骤二:新建项目
单击上方的项目管理页签。
在项目管理页面,单击创建项目。
在弹出的对话框中,输入项目名称,单击确定。
本文项目名称以project_test为例。
步骤三:编辑工作流
在项目管理页面,单击新建项目的项目名称(本文示例为project_test)。
在左侧导航栏,选择
。在工作流定义页面,单击创建工作流。
在创建工作流页面,拖拽HIVECLI节点块到画布中。
本文以HIVECLI任务类型为例。任务类型的详细信息,请参见任务类型。
在弹出的对话框中,设置节点名称和脚本,单击确定。
设置示例如下表所示,其他参数保持默认值即可。更多参数的说明,请参见HIVECLI。
参数
示例
节点名称
hivecli
脚本
create table if not exists mytable(a string, b int); insert into mytable values ('abc', 1), ('def', 2); select a, sum(b) from mytable group by a;
保存工作流。
单击画布右上方的保存。
在弹出的对话中,输入工作流名称,单击确定。
本文工作流名称以workflow_test为例。
步骤四:运行工作流
在工作流定义页面,单击图标(上线)。
单击图标(运行)。
在弹出的对话框中,在执行集群下拉列表中选择在步骤一:绑定EMR集群中绑定的集群,单击确定。
步骤五:查看任务实例日志
在左侧导航栏,选择工作流>工作流实例,可以查看实例的运行状况。
在左侧导航栏,选择任务>任务实例。
在任务实例页面,单击目标任务名称操作列的图标(查看日志),可以查看任务节点的运行日志。
(可选)步骤六:下线工作流
在工作流定义页面,单击目标工作流操作列的(下线)。