本文以创建表bank_data和result_table为例,为您介绍如何通过DataWorks创建表并上传数据。
前提条件
已在工作空间添加MaxCompute数据源,并在数据开发中绑定对应MaxCompute数据源后,当前页面才会显示MaxCompute目录。
工作空间添加MaxCompute数据源,详情请参见创建MaxCompute数据源。
数据开发中绑定MaxCompute数据源,请在数据开发控制台左侧导航栏单击数据源,根据提示进行操作。
背景信息
表bank_data用于存储业务数据,表result_table用于存储数据分析后产生的结果。
创建表bank_data
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
在数据开发页面,鼠标悬停至图标,单击 。
您也可以打开相应的业务流程,右键单击MaxCompute,选择新建表。
在新建表对话框中,选择相应的路径,输入名称为bank_data,单击新建。
在表的编辑页面,单击DDL。
在DDL对话框中,输入如下建表语句,单击生成表结构。
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年龄', job STRING COMMENT '工作类型', marital STRING COMMENT '婚否', education STRING COMMENT '教育程度', default STRING COMMENT '是否有信用卡', housing STRING COMMENT '房贷', loan STRING COMMENT '贷款', contact STRING COMMENT '联系途径', month STRING COMMENT '月份', day_of_week STRING COMMENT '星期几', duration STRING COMMENT '持续时间', campaign BIGINT COMMENT '本次活动联系的次数', pdays DOUBLE COMMENT '与上一次联系的时间间隔', previous DOUBLE COMMENT '之前与客户联系的次数', poutcome STRING COMMENT '之前市场活动的结果', emp_var_rate DOUBLE COMMENT '就业变化速率', cons_price_idx DOUBLE COMMENT '消费者物价指数', cons_conf_idx DOUBLE COMMENT '消费者信心指数', euribor3m DOUBLE COMMENT '欧元存款利率', nr_employed DOUBLE COMMENT '职工人数', y BIGINT COMMENT '是否有定期存款' );
创建表的更多SQL语法请参见创建表。
在确认操作对话框中,单击确认。
生成表结构后,在基本属性模块输入表的中文名,并分别单击提交到开发环境和提交到生产环境。
说明本示例以标准模式的工作空间为例。如果您使用的是简单模式的工作空间,仅单击提交到生产环境即可。
在左侧导航栏,单击表管理。
在表管理页面,双击打开相应的表名,查看表信息。
创建表result_table
在数据开发页面,鼠标悬停至图标,单击 。
您也可以打开相应的业务流程,右键单击MaxCompute,选择新建表。
在新建表对话框中,选择相应的路径,输入表名为result_table,单击新建。
在DDL模式对话框中,输入如下建表语句,单击生成表结构。
CREATE TABLE IF NOT EXISTS result_table ( education STRING COMMENT '教育程度', num BIGINT COMMENT '人数' );
在确认操作对话框中,单击确认。
生成表结构后,在基本属性区域输入表的中文名,并分别单击提交到开发环境和提交到生产环境。
在左侧导航栏,单击表管理。
在表管理页面,双击打开相应的表名,查看表信息。
本地数据上传至bank_data
DataWorks支持以下操作:
上传本地的文本文件至工作空间的表中。
通过数据集成模块,从多个不同的数据源导入业务数据至工作空间。
本地文本文件上传的限制如下:
文件类型:仅支持.txt、.csv和.log类型的文件。
文件大小:不能超过30MB。
如果您需要上传超过30MB的文件,则可以使用如下方式:
将数据文件上传至OSS,使用MaxCompute外部表映射的方式获取OSS中相应的文件数据。上传数据至OSS,详情请参见上传文件,MaxCompute外部表映射,详情请参见外部表。
将数据文件上传至OSS,使用数据集成功能将OSS的数据同步至MaxCompute表。上传数据至OSS,详情请参见上传文件,同步OSS数据至MaxCompute表,详情请参见通过向导模式配置离线同步任务。
使用
功能。
操作对象:支持分区表导入和非分区表导入,但不支持分区值为中文、and(&)、星号(*)等特殊字符。
以导入本地文件banking.txt至DataWorks为例,操作如下:
在数据开发页面,单击图标。
在数据导入向导对话框中,至少输入3个字母来搜索需要导入数据的bank_data表,单击下一步。
说明如果您创建表后无法在此处搜索到该表,您可以先在数据地图进行手工同步表操作后,再在此处尝试搜索该表,手工同步详情可参考文档:手动刷新表元数据。
选择数据导入方式为上传本地数据,单击选择文件后的浏览...。选择本地数据文件,配置导入信息。
参数
描述
选择数据导入方式
默认上传本地文件。
文件格式
您可以选择csv和自定义文本文件两种格式。
选择文件
单击浏览...,选择本地需要上传的文件。
选择分隔符
包括逗号、Tab、分号、空格、|、#和&等分隔符,此处选择逗号。
原始字符集
包括GBK、UTF-8、CP936和ISO-8859,此处选择GBK。
导入起始行
选择导入的起始行,此处选择1。
首行为标题
根据自身需求,设置首行是否为标题。本示例无需选中首行为标题。
数据预览
您可以在此处进行数据预览。
单击下一步。
选择目标表字段与源字段的匹配方式,本示例选择按位置匹配。
单击导入数据。
后续步骤
现在,您已经学习了如何创建表并上传数据,您可以继续下一个教程。在该教程中,您将学习如何通过创建、配置和提交业务流程,对工作空间的数据进行深入分析和计算。详情请参见创建业务流程。