本文為您介紹使用MaxCompute Studio開發Java程式的流程以及相關目錄。
開發流程
通過MaxCompute Studio開發Java程式的流程如下:
- 建立MaxCompute Java Module。
- 開發Java程式。您可以參考如下樣本開發不同的Java程式:
- 打包、上傳及註冊。
Module目錄
建立MaxCompute Java Module後,MaxCompute Studio會自動建立一個Module。Module目錄內容如下:
- examples:範例程式碼,包括單元測試樣本。您可以參考樣本開發單元測試指令碼。
- src/main/java:開發Java程式的源碼。
- warehouse:儲存MaxCompute專案的表(包括Schema和資料)和資源。
warehouse目錄
warehouse目錄存放MaxCompute專案的表(包括Schema和資料)和資源,用於執行UDF或MapReduce。
- warehouse目錄包含專案名、資源(_resources_)、表(_tables_)、表名、表結構(_schema_)和表資料(data)。
- 表結構(_schema_)檔案中設定項目名、表名、列名和類型,並通過冒號(:)分隔。分區表需要配置分區列。圖中wc_in1為非分區表,wc_in2為分區表。
- data檔案採用標準CSV格式儲存表的資料:
- 特殊字元為逗號(,)、單個雙引號(")和分行符號(
\n
或\r\n
)。 - 資料行分隔符號為逗號(,),行分隔字元為分行符號(
\n
或\r\n
)。 - 如果列內容包含特殊字元,需要在該列內容前後加上雙引號(" ")。例如
3,No
寫為"3,No"
。 - 如果列內容包含單個雙引號("),則所有的單個雙引號(")需要轉義成雙引號(" ")。例如
a"b"c
寫為"a""b""c"
。 \N
表示該列為NULL,如果該列內容為\N
(STRING類型),需要轉義為"""\N"""
。- 檔案字元編碼為UTF-8。
- 特殊字元為逗號(,)、單個雙引號(")和分行符號(