本文为您介绍使用MaxCompute Studio开发Java程序的流程以及相关目录。
开发流程
通过MaxCompute Studio开发Java程序的流程如下:
- 创建MaxCompute Java Module。
- 开发Java程序。您可以参考如下示例开发不同的Java程序:
- 打包、上传和注册。
Module目录
创建MaxCompute Java Module后,MaxCompute Studio会自动创建一个Module。Module目录内容如下:
- examples:示例代码,包括单元测试示例。您可以参考示例开发单元测试脚本。
- src/main/java:开发Java程序的源码。
- warehouse:存储MaxCompute项目的表(包括Schema和数据)和资源。
warehouse目录
warehouse目录存储MaxCompute项目的表(包括Schema和数据)和资源,用于执行UDF或MapReduce。
- warehouse目录包含项目名、资源(_resources_)、表(_tables_)、表名、表结构(_schema_)和表数据(data)。
- 表结构(_schema_)文件中配置项目名、表名、列名和类型,并通过冒号(:)分隔。分区表需要配置分区列。图中wc_in1为非分区表,wc_in2为分区表。
- data文件采用标准CSV格式存储表的数据:
- 特殊字符为逗号(,)、单个双引号(")和换行符(
\n
或\r\n
)。 - 列分隔符为逗号(,),行分隔符为换行符(
\n
或\r\n
)。 - 如果列内容包含特殊字符,需要在该列内容前后加上双引号(" ")。例如
3,No
写为"3,No"
。 - 如果列内容包含单个双引号("),则所有的单个双引号(")需要转义成双引号(" ")。例如
a"b"c
写为"a""b""c"
。 \N
表示该列为NULL,如果该列内容为\N
(STRING类型),需要转义为"""\N"""
。- 文件字符编码为UTF-8。
- 特殊字符为逗号(,)、单个双引号(")和换行符(