全部产品
Search
文档中心

大数据开发治理平台 DataWorks:创建EMR表

更新时间:Nov 13, 2024

本文为您介绍如何创建EMR(E-MapReduce)表。

背景信息

创建EMR数据源后,平台将自动在数据地图新建EMR元数据采集器来采集该集群元数据,若您创建EMR数据源后仍无法在此界面选择到EMR库,请前往数据地图找到该集群的元数据采集器重新采集,详情请参见采集E-MapReduce元数据

操作步骤

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 鼠标悬停至新建图标,单击新建表 > EMR >

    您也可以找到相应的业务流程,右键单击EMR,单击新建表

  3. 新建表对话框中,配置表所在的引擎实例、路径等信息。

    新建emr表

  4. 单击新建,进入表编辑页面。

  5. 基本属性区域,配置各项参数。

    基本属性

    名称

    描述

    一级主题

    新建表所处的一级目标文件夹名称。

    说明

    一级、二级主题仅仅是DataWorks上文件夹的摆放形式,目的是为了您能更好地管理您的表。

    二级主题

    新建表所处的二级目标文件夹名称。

    新建主题

    单击新建主题,进入主题管理页面,您可以在该页面创建一级主题、二级主题。

    刷新

    新建主题后,单击刷新

    描述

    对新建表进行简单描述。

  6. 物理模型设计区域,配置各项参数。

    物理模型

    参数

    描述

    层级

    从下拉列表中选择相应的层级和物理分类。如果您需要新建层级和物理分类,请联系工作空间管理员,单击新建层级,在层级管理页面进行添加。新建成功后,单击刷新

    物理分类

    分区类型

    包括分区表非分区表

    表类型

    包括内部表外部表

    选择存储格式

    根据需要选择表中文件的存储格式。

  7. 表结构设计区域,配置各项参数。

    表结构

    参数

    描述

    添加字段

    单击添加字段,配置字段信息后,单击保存,即可新增一个字段。

    上移

    调整未创建的表的字段顺序。如果为已经创建的表调整字段顺序,会要求删除当前已经创建的表,再新建一张同名表。生产环境中禁止该操作。

    下移

    字段英文名

    字段的英文名称,由字母、数字和下划线(_)组成。

    字段类型

    支持TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL、VARCHAR、CHAR、STRING、BINARY、DATETIME、DATE、TIMESTAMP、BOOLEAN、ARRAY、MAP和STRUCT。

    长度/设置

    当选择的字段类型需要设置长度时,请在文本框中进行配置。

    描述

    对字段进行描述。

    主键

    勾选表示该字段是主键。该主键为业务概念,您可以在业务上保证记录的唯一性,DataWorks对主键无约束。

    编辑

    单击已保存字段后的编辑,修改当前字段的配置,并单击保存

    删除

    删除已经创建的字段。

    说明

    已经创建的表,删除字段重新提交时,会要求删除当前表,再去建一张同名表,在生产环境中禁止该操作。

    添加分区

    如果您在物理模型设计区域,设置分区类型分区表,则需要配置分区。

    您可以为当前表新建一个分区。如果为已经创建的表添加分区,会要求删除当前已经创建的表,再新建一张同名表。生产环境中禁止该操作。

  8. 单击工具栏中的提交图标,提交EMR表至生产环境。

    如果您使用的是标准模式的工作空间,请先提交表至开发环境,再提交表至生产环境。

    说明

    提交时,您需要选择提交表时所用的调度资源组,当使用Serverless资源组提交表时,DataWorks平台将下发对应新建表的任务到引擎侧执行,并打印执行过程的执行日志,如果资源提交过程中出现问题,您可以先通过日志自助排查。如果您目前无可用的Serverless资源组,请购买并配置Serverless资源组便于使用,操作详情请参见新增和使用Serverless资源组