本文为您介绍如何创建EMR(E-MapReduce)表。
背景信息
创建EMR数据源后,平台将自动在数据地图新建EMR元数据采集器来采集该集群元数据,若您创建EMR数据源后仍无法在此界面选择到EMR库,请前往数据地图找到该集群的元数据采集器重新采集,详情请参见采集E-MapReduce元数据。
操作步骤
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
鼠标悬停至图标,单击 。
您也可以找到相应的业务流程,右键单击EMR,单击新建表。
在新建表对话框中,配置表所在的引擎实例、路径等信息。
单击新建,进入表编辑页面。
在基本属性区域,配置各项参数。
名称
描述
一级主题
新建表所处的一级目标文件夹名称。
说明一级、二级主题仅仅是DataWorks上文件夹的摆放形式,目的是为了您能更好地管理您的表。
二级主题
新建表所处的二级目标文件夹名称。
新建主题
单击新建主题,进入主题管理页面,您可以在该页面创建一级主题、二级主题。
刷新
新建主题后,单击刷新。
描述
对新建表进行简单描述。
在物理模型设计区域,配置各项参数。
参数
描述
层级
从下拉列表中选择相应的层级和物理分类。如果您需要新建层级和物理分类,请联系工作空间管理员,单击新建层级,在层级管理页面进行添加。新建成功后,单击刷新。
物理分类
分区类型
包括分区表和非分区表。
表类型
包括内部表和外部表。
选择存储格式
根据需要选择表中文件的存储格式。
在表结构设计区域,配置各项参数。
参数
描述
添加字段
单击添加字段,配置字段信息后,单击保存,即可新增一个字段。
上移
调整未创建的表的字段顺序。如果为已经创建的表调整字段顺序,会要求删除当前已经创建的表,再新建一张同名表。生产环境中禁止该操作。
下移
字段英文名
字段的英文名称,由字母、数字和下划线(_)组成。
字段类型
支持TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL、VARCHAR、CHAR、STRING、BINARY、DATETIME、DATE、TIMESTAMP、BOOLEAN、ARRAY、MAP和STRUCT。
长度/设置
当选择的字段类型需要设置长度时,请在文本框中进行配置。
描述
对字段进行描述。
主键
勾选表示该字段是主键。该主键为业务概念,您可以在业务上保证记录的唯一性,DataWorks对主键无约束。
编辑
单击已保存字段后的编辑,修改当前字段的配置,并单击保存。
删除
删除已经创建的字段。
说明已经创建的表,删除字段重新提交时,会要求删除当前表,再去建一张同名表,在生产环境中禁止该操作。
添加分区
如果您在物理模型设计区域,设置分区类型为分区表,则需要配置分区。
您可以为当前表新建一个分区。如果为已经创建的表添加分区,会要求删除当前已经创建的表,再新建一张同名表。生产环境中禁止该操作。
单击工具栏中的图标,提交EMR表至生产环境。
如果您使用的是标准模式的工作空间,请先提交表至开发环境,再提交表至生产环境。
说明提交时,您需要选择提交表时所用的调度资源组,当使用Serverless资源组提交表时,DataWorks平台将下发对应新建表的任务到引擎侧执行,并打印执行过程的执行日志,如果资源提交过程中出现问题,您可以先通过日志自助排查。如果您目前无可用的Serverless资源组,请购买并配置Serverless资源组便于使用,操作详情请参见新增和使用Serverless资源组。