本文为您介绍如何注册EMR(E-MapReduce)函数。
前提条件
EMR引擎类型包括新版数据湖(DataLake)及Hadoop,不同类型引擎创建资源前需执行的准备工作不同。您需要根据实际情况完成EMR侧及DataWorks侧的准备工作。
DataLake:详情请参见DataLake集群配置、DataWorks配置。
Hadoop:Hadoop集群开发前准备工作。
您需要先上传资源,才可以注册函数。新建EMR资源详情可参考文档:创建和使用EMR资源
操作步骤
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
新建业务流程,详情请参见创建周期业务流程。
在本地Java环境编辑程序并生成JAR包后,再新建JAR资源,并提交发布。详情请参见创建和使用EMR资源。
新建函数。
打开相应的业务流程,右键单击EMR,选择新建函数。
在新建函数对话框中,输入名称,并选择引擎实例和路径。
单击新建。
在注册函数对话框中,配置各项参数。
参数
描述
函数类型
选择函数类型,包括数学运算函数、聚合函数、字符串处理函数、日期函数、窗口函数和其他函数。
EMR引擎实例
默认不可以修改。
EMR引擎类型
默认不可以修改。
EMR数据库
从下拉列表中选择相应的数据库。如果您需要新建数据库,请单击新建库。在新建库对话框中,配置各项参数,单击确认。
函数名
UDF函数名,即SQL中引用该函数所使用的名称。需要全局唯一,且注册函数后不支持修改。
责任人
默认显示。
类名
实现UDF的主类名,必填。
资源列表
从下拉列表中选择本工作空间中已添加的资源,必填。如果您需要新建资源,请单击新建资源。在新建资源对话框中,配置各项参数,单击确定。
描述
对当前UDF进行简单描述。
命令格式
该UDF的具体使用方法示例,例如
test
。参数说明
支持输入的参数类型以及返回参数类型的具体说明。
返回值
返回值,例如1,非必填项。
示例
函数中的示例,非必填项。
单击工具栏中的图标。
提交函数。
单击工具栏中的图标。
说明提交时,您需要选择提交函数所用的调度资源组,当使用Serverless资源组提交表时,DataWorks平台将下发对应的注册函数的任务到引擎侧执行,并打印执行过程日志信息,如果资源提交过程中出现问题,您也可以通过日志先进行自助排查。如果您目前无可用的Serverless资源组,请购买并配置Serverless资源组便于使用,操作详情请参见新增和使用Serverless资源组。
在提交新版本对话框中,输入变更描述。
单击确认。