MaxCompute 2.0資料類型版本介紹 - MaxCompute

本文為您介紹MaxCompute 2.0資料類型版本的定義、使用情境、支援的資料類型以及與其它資料類型版本的差異。

定義

專案空間選擇資料類型版本為2.0資料類型版本時，專案空間的資料類型屬性參數定義如下。

setproject odps.sql.type.system.odps2=true; --開啟MaxCompute 2.0資料類型。
setproject odps.sql.decimal.odps2=true; --開啟Decimal 2.0資料類型。
setproject odps.sql.hive.compatible=false; --關閉Hive相容模式。

適用情境

適用於在2020年04月之前無存量資料的MaxCompute專案，且該專案依賴的產品組件支援2.0資料類型版本。

基礎資料類型

類型	常量樣本	描述
TINYINT	1Y、-127Y	8位有符號整型。取值範圍：-128~127。
SMALLINT	32767S、-100S	16位有符號整型。取值範圍：-32768~32767。
INT	1000、-15645787	32位有符號整型。取值範圍：-2 ³¹~2 ³¹-1。
BIGINT	100000000000L、-1L	64位有符號整型。取值範圍：-2 ⁶³+1~2 ⁶³ -1。
BINARY	unhex('FA34E10293CB42848573A4E39937F479') X'616263'	位元據類型，目前長度限制為8 MB。說明 `X'num [...]'`格式中`num`是16進位的數字，可以是`0~9`或者是`A~F`。例如`X'616263'`，實際代表的是`abc`，因為字元`a`的ASCII編碼是`0x61`，字元`b`的ASCII編碼是`0x62`，字元`c`的ASCII編碼是`0x63`。`X'616263'`在語義上等效於`unhex('616263')`。假如字串長度不是偶數，系統會在前面補`0`，例如`X'616'`等效於`X'0616'`。必須要使用半形單引號，不能使用雙引號，例如`X"616263"`不會被解釋成BINARY類型常量。
FLOAT	3.14F、cast(3.14159261E+7 as float)	32位二進位浮點型。說明由於電腦儲存以及內部計算邏輯，用FLOAT類型進行計算時會有精度損失，如果對精度要求比較高，需要將FLOAT資料類型轉換成DECIMAL類型進行計算。
DOUBLE	3.14D、3.14159261E+7	64位二進位浮點型。說明由於電腦儲存以及內部計算邏輯，用DOUBLE類型進行計算時會有精度損失，如果對精度要求比較高，需要將DOUBLE資料類型轉換成DECIMAL類型進行計算。
DECIMAL(precision,scale)	3.5BD、99999999999.9999999BD	10進位精確數字類型。預設為`decimal(38,18)`，使用者可以設定其precision和scale值。 precision：表示最多可以表示多少位的數字。取值範圍：`1 <= precision <= 38`。 scale：表示小數部分的位元。預設取值範圍： `0 <= scale <= 18`。若需要使用更大scale精度，支援使用flag參數`set odps.sql.decimal2.extended.scale.enable=true;`，設定後scale取值範圍為`0 <= scale <= 38`。說明同一個表中不能同時存在新老Decimal資料類型。執行`setproject odps.sql.hive.compatible=true;`命令開啟Hive相容模式時，`Decimal(precision, scale)`類型在資料匯入（Tunnel Upload）和SQL運算過程中，如果資料的小數位元超過scale的大小，則會進行四捨五入的處理。如果整數部分超出限制，系統不會報錯，但輸入資料會變為NULL值。當參數`odps.sql.decimal.tostring.trimzero`值為`true`時去掉小數點後末尾的零，為`false`時保留小數點後末尾的零，預設值為`true`。只對錶裡取數生效，對靜態值不生效。
VARCHAR(n)	無	變長字元類型，n為長度。取值範圍：1~65535。
CHAR(n)	無	固定長度字元類型，n為長度，最大取值為255。長度不足則會填充空格，但空格不參與比較。
STRING	"abc"、'bcd'、"alibaba"、'inc'	字串類型，目前長度限制為8 MB。
DATE	DATE'2017-11-11'	日期類型，格式為`yyyy-mm-dd`。取值範圍：0001-01-01~9999-12-31。
DATETIME	DATETIME'2017-11-11 00:00:00'	日期時間類型。取值範圍：0001-01-01 00:00:00.000~9999-12-31 23:59:59.999，精確到毫秒。
TIMESTAMP	TIMESTAMP'2017-11-11 00:00:00.123456789'	時間戳記類型。取值範圍：0001-01-01 00:00:00.000000000~9999-12-31 23:59:59.999999999，精確到納秒。說明 TIMESTAMP類型本身與時區不轉換，在任何時區，TIMESTAMP類型儲存的都是從Epoch（UTC 1970-01-01 00:00:00）開始的一個位移量。您可以通過內建函數對TIMESTAMP類型資料執行與時區相關的計算，如`cast(<a timestamp> as string)`將TIMESTAMP類型資料按照當前時區值轉換成STRING類型。
TIMESTAMP_NTZ	TIMESTAMP_NTZ '2017-11-11 00:00:00.123456789'	無時區時間戳記類型。取值範圍：0000-01-01 00:00:00.000000000~9999-12-31 23:59:59.999999999。關於TIMESTAMP_NTZ資料類型介紹，詳情請參見MaxCompute TIMESTAMP_NTZ資料類型。
BOOLEAN	True、False	BOOLEAN類型。取值範圍：True、False。
INTERVAL	INTERVAL '2021' YEAR INTERVAL '1' DAY INTERVAL '2000-1' YEAR TO MONTH INTERVAL '-1 23:59:59.999' DAY TO SECOND	代表時間段的資料類型，用來表示兩個日期或時間之間的時間間隔。包含INTERVAL_YEAR_MONTH和INTERVAL_DAY_TIME兩種類型。詳情請參見INTERVAL資料類型。

資料類型說明如下：

上述的各種資料類型均可以為NULL。

SQL中的INT關鍵字是32位整型。

--將a轉換為32位整型。
CAST(a AS INT)

整型常量的語義會預設為INT類型。例如SELECT 1 + a;中的整型常量1會被作為INT類型處理。如果常量過長，超過了INT的範圍而又沒有超過BIGINT的範圍，則會作為BIGINT類型處理；如果超過了BIGINT的範圍，則會被作為DOUBLE類型處理。
隱式轉換
- 部分隱式類型轉換會被禁用。例如，STRING->BIGINT、STRING->DATETIME、DOUBLE->BIGINT、DECIMAL->DOUBLE、DECIMAL->BIGINT有精度損失或者報錯的風險。禁用類型可以通過CAST函數強制進行資料類型轉換。
- VARCHAR類型常量可以通過隱式轉換為STRING常量。
表、函數以及UDF
- 參數涉及2.0資料類型的內建函數，在2.0資料類型版本下可以正常使用。
- UDF包含的資料類型都會按照2.0資料類型進行解析重載。
- 分區列支援STRING、VARCHAR、CHAR、TINYINT、SMALLINT、INT、BIGINT資料類型。
STRING常量支援串連，多（2個及以上）個字串放一起，會自動連接成一個字串，例如執行 select 'abc' 'efg' 'ddt'；，返回結果為abcefgddt。
給DECIMAL欄位插入常量時，常量的寫法需要與常量定義中的格式保持一致。例如下面範例程式碼中的3.5BD。
```
INSERT INTO test_tb(a) VALUES (3.5BD)
```
DATETIME查詢顯示的時間值不包含毫秒。Tunnel命令通過-dfp來指定時間格式，可以指定到毫秒顯示，例如tunnel upload -dfp 'yyyy-MM-dd HH:mm:ss.SSS'。關於Tunnel命令的更多資訊，請參見Tunnel命令。

複雜資料類型

類型	定義方法	構造方法
ARRAY	`array<int>` `array<struct<a:int, b:string>>`	`array(1, 2, 3)` `array(struct(1, 2), struct(3, 4))`
MAP	`map<string, string>` `map<smallint, array<string>>`	`map("k1", "v1","k2","v2")` `map(1S, array("a", "b"), 2S, array('z','y'))`
STRUCT	`struct<x:int, y:int>` `struct<field1:bigint, field2:array<int>, field3:map<int, int>>`	`named_struct('x', 1,'y',2)` `named_struct('field1',100L,'field2', array(1, 2),'field3',map(1,100, 2, 200))`
JSON	`JSON`	`JSON '123'`

說明

MaxCompute的複雜資料類型可以被嵌套使用，最多支援不超過20層的嵌套。相關的內建函數說明請參見ARRAY、MAP、STRUCT或JSON。
MaxCompute的複雜資料類型最大Size建議不要超過1 MB，即複雜資料類型裡存的資料大小不能超過1 MB，否則會造成計算過程OOM的錯誤。

與其他資料類型版本的差異

DML文法行為差異
- 集合操作中的LIMIT語句行為不同。
  例如，對於SELECT * FROM t1 UNION ALL SELECT * FROM t2 LIMIT 10;：
  - 1.0資料類型版本下時為SELECT * FROM t1 UNION ALL SELECT * FROM ( SELECT * FROM t2 LIMIT 10) t2;。
  - 2.0資料類型版本下時為SELECT * FROM (SELECT * FROM t1 UNION ALL SELECT * FROM t2 ) t LIMIT 10;。
  ORDER BY、DISTRIBUTE BY、SORT BY和CLUSTER BY操作也具有上述行為特點。
- IN運算式的類型解析不同。
  例如a in (1, 2, 3) ：
  - 1.0資料類型版本時，要求IN後面的括弧裡的所有值的類型必須一致。
  - 2.0資料類型版本時，IN後面的括弧裡的所有值支援隱式類型轉換一致即可。
- INSERT語句轉換規則不同。
  - Hive相容資料類型：來源資料類型如果可以顯式轉換為表中的資料類型，系統會自動插入轉換函式並允許運行。
  - 1.0和2.0資料類型版本：來源資料類型需要隱式轉換為表中的資料類型，否則報錯。
```
--在Hive模式下成功，在其他模式下報錯。
create table t (a bigint); 
insert into table select 1.5; 
```
函數行為差異
- +、 -、*、/、POW函數
  - Hive相容資料類型版本：在資料溢出時繞回（即資料超出範圍後返回初始值）。
  - 1.0和2.0資料類型版本：在資料溢出時報告異常，其它模式下返回NULL。
- >、>=、= 、<、<=
  - Hive相容資料類型版本：在比較DOUBLE類型資料時，直接比較Double值。
  - 1.0和2.0資料類型版本：在比較DOUBLE類型資料時，如果小數點後15位以前資料相同，認為資料相同。15位以後的資料不作比較。
- 位操作運算子&、|、^
  - Hive相容資料類型版本：返回參數類型。
  - 1.0和2.0資料類型版本：傳回型別為BIGINT。
- LENGTH、LENGTHB、FIND_IN_SET、INSTR、SIZE、HASH、SIGN函數
  - Hive相容資料類型版本：傳回型別為INT。
  - 1.0和2.0資料類型版本：傳回型別為BIGINT。
- FLOOR、CEIL
  - Hive相容資料類型版本：如果參數為DECIMAL類型，在Hive相容資料類型版本下傳回型別仍為DECIMAL。
  - 1.0和2.0資料類型版本：如果參數為DECIMAL類型，在1.0和2.0資料類型版本下傳回型別為BIGINT。
- FROM_UNIXTIME
  - Hive相容資料類型版本：傳回值為STRING類型。
  - 1.0和2.0資料類型版本：傳回值為DATETIME類型。
- CONCAT_WS
  - Hive相容資料類型版本：如果一個被串連的輸入字串為NULL，此字串被忽略。
  - 1.0和2.0資料類型版本：如果一個被串連的輸入字串為NULL，則返回NULL。
- FIND_IN_SET
  - Hive相容資料類型版本：Null 字元串認為匹配字串尾部。
```
--Hive相容模式下 
find_in_set("","") 結果是1。
find_in_set("", "a,") 結果是2。
```
  - 1.0和2.0資料類型版本：Null 字元串認為不匹配返回0。
- REGEXP_(EXTRACT/REPLACE)
  - Hive相容資料類型版本：REGEXP的模式定義符合Java regex規範。
  - 1.0和2.0資料類型版本：REGEXP的模式定義符合MaxCompute規範。
- SUBSTR
```
string substr(string <str>, bigint <start_position>[, bigint <length>])
```
  start_position：必填，為BIGINT類型，預設起始位置為1。
  - Hive相容資料類型版本：當start_position為0時，與起始位置為1時相同。
  - 1.0和2.0資料類型版本：當start_position為0時，返回NULL。