内建函数概述 - 云原生大数据计算服务 MaxCompute

MaxCompute预置了多种函数，可满足大部分数据处理需求。本文介绍MaxCompute提供的函数类型及函数使用相关说明。

函数类型

函数类型	说明
日期与时间函数	支持处理DATE、DATETIME、TIMESTAMP等日期类型数据，实现加减日期、计算日期差值、提取日期字段、获取当前时间、转换日期格式等业务处理能力。
数学函数	支持处理BIGINT、DOUBLE、DECIMAL、FLOAT等数值类型数据，实现进制转换、数学运算、四舍五入、获取随机数等业务处理能力。
窗口函数	支持在指定的开窗列中，实现求和、求最大值和最小值、求平均值、求中间值、数值排序、数值偏移、抽样等业务处理能力。
聚合函数	支持将多条输入记录聚合成一条输出值，实现求和、求平均值、求最大值和最小值、参数聚合、字符串连接等业务处理能力。
HyperLogLog++函数	近似聚合函数。当数据量非常大时，HyperLogLog++ 函数能够使用较小的内存空间快速完成数据去重，实现查询加速。
字符串函数	支持处理STRING类型字符串，实现截取字符串、替换字符串、查找字符串、转换大小写、转换字符串格式等业务处理能力。其中字符串函数的使用限制请参见字符串函数使用限制。
ARRAY函数	支持处理ARRAY类型数据，实现数组构建、去重元素、聚合元素、元素排序、合并元素等业务处理能力。
MAP函数	支持处理MAP类型数据，实现键值对提取、MAP构建、MAP合并等业务处理能力。
STRUCT函数	支持处理STRUCT类型数据，实现STRUCT数组展开、STRUCT构建等业务处理能力。
JSON函数	支持处理JSON类型数据，实现JSON字段值提取、生成JSON对象/数组、插入/更新JSON数据、处理复杂结构数据等功能。其中JSON函数的使用限制请参见JSON函数使用限制。
加密函数	支持处理STRING、BINARY类型的表数据，实现加密、解密等业务处理能力。
网络函数	支持处理STRING、BINARY类型网络相关数据，实现IP地址格式转换、URL解析、获取网络掩码等业务处理能力。
非结构化处理函数	支持通过多种方式对接数仓或数据湖中存储的非结构化数据及其元信息。
其他函数	除上述函数之外，还提供支持其他业务场景的函数。

各类型函数与开源函数的对照关系，请参见与Hive、MySQL、Oracle内建函数对照表。

注意事项

使用内建函数时，请注意以下事项：

内建函数的入参类型、入参数量、函数格式必须满足函数语法要求，否则MaxCompute无法成功解析函数，SQL运行会报错。
如果内建函数的入参涉及2.0新数据类型（例如TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY），您需要打开2.0新数据类型开关，否则运行会报错。开关打开方式如下：
- Session级别：您需要在SQL语句前加上SET odps.sql.type.system.odps2=true;，与SQL语句一起提交执行。该配置仅对本次运行的SQL有效。
- Project级别：Project Owner可根据需要对MaxCompute项目进行设置，等待10~15分钟后才会生效。该配置对后续运行的所有SQL有效。
```
SETPROJECT odps.sql.type.system.odps2=true;
```
当MaxCompute项目打开2.0新数据类型开关时，部分隐式类型转换会被禁用，包括STRING转换为BIGINT、STRING转换为DATETIME、DOUBLE转换为BIGINT、DECIMAL转换为DOUBLE、DECIMAL转换为BIGINT，这些转换都有精度损失或报错的风险。此时，您可以通过CAST函数执行强制转换解决该问题，或关闭2.0新数据类型开关。
当自定义函数的名称与内建函数的名称相同时，自定义函数会覆盖同名的内建函数。例如，MaxCompute中存在一个名称为CONCAT的自定义函数，则系统默认会调用自定义的CONCAT，不会调用内建函数CONCAT。如果您希望调用内建函数，需要在内建函数前增加::符号，例如SELECT ::CONCAT('ab', 'c');。
如果MaxCompute项目的全局属性设置不同，会导致内建函数结果不一致，您可以通过SETPROJECT;命令查看项目的全局属性信息。

JSON函数使用限制

SDK版本要求
- 仅支持Java SDK V0.44.0及以上版本。
- 仅支持PyODPS V0.11.4.1及以上版本。
表操作限制
- 暂不支持对一张表新增JSON列。
- 暂不支持Cluster表。
- 暂不支持Delta Table类型表。
SQL操作限制
- 暂不支持对JSON类型的比较操作。
- 暂不支持对JSON类型进行ORDER BY、GROUP BY或作为JOIN的key。
数据精度
- 目前JSON NUMBER的整数部分使用BIGINT类型存储，当整数部分超出BIGINT范围时会溢出。
- 目前JSON NUMBER的小数部分使用DOUBLE类型存储，当小数部分转换为DOUBLE时会损失精度。
字符限制：生成JSON类型数据所用的字符串里不支持UNICODE\u0000。
引擎兼容性：如果表存在其他引擎读取情况，比如Hologres等，目前不支持读取JSON数据类型。
Java UDF和Python UDF暂不支持JSON类型。
JSON数据类型可以被嵌套使用，最多支持不超过20层的嵌套。
开发工具
目前支持的开发工具包括odpscmd客户端，Studio和DataWorks，暂不支持Dataphin等外围生态。如果需要跟外部系统组合使用，请先确认后再使用。使用odpscmd客户端时需要关注以下内容：
- 需要将客户端升级到V0.46.5及以上版本，否则无法使用DESC json_table命令且无法通过Tunnel下载JSON类型数据。
- 需要将客户端安装路径下的conf\odps_config.ini文件中的参数use_instance_tunnel设置为false，否则查询会报错。

字符串函数使用限制

以下函数只支持英文字符的转换：

TRIM/RTRIM/LTRIM：trimChars只支持英文字符。
REVERSE：在Hive模式下只支持英文字符。
SOUNDEX：仅转换英文字符。
TOLOWER：将字符串中的英文字符转换为小写形式。
TOUPPER：将字符串中的英文字符转换为大写形式。
INITCAP：将字符串中每个单词首字母（英文字符）转化为大写形式，其余为小写。