MaxCompute与Hologres已在底层无缝打通,Hologres原生向量引擎可以直读MaxCompute数据,并且充分利用MaxCompute的多级分区过滤和算子下推来优化查询速度。本文为您介绍在Hologres中如何通过新建外部表或导入数据至Hologres的方式加速查询MaxCompute数据。
新建外部表
在Hologres中新建外部表,即可直接加速查询MaxCompute表数据,无需数据导入导出,也无冗余存储。该方式相较于在MaxCompute中查询数据,查询性能约有2~5倍的提升。如需进一步加速查询MaxCompute数据,可采取以下优化策略。
使用Serverless Computing功能查询外部表
Hologres从V2.1.17版本起支持Serverless Computing能力,针对MaxCompute大数据量离线导入、大型ETL作业、外部表大数据量查询等场景,使用Serverless Computing执行该类任务可以直接使用额外的Serverless资源,避免使用实例自身资源,无需为实例预留额外的计算资源,显著提升实例稳定性、减少OOM概率,且仅需为任务单独付费。Serverless Computing详情请参见Serverless Computing概述,Serverless Computing使用方法请参见Serverless Computing使用指南。
采用全新外部表执行引擎HQE
从Hologres V0.10版本开始,Hologres采取全新的执行引擎HQE来加速查询MaxCompute外部表,相比低于V0.10版本的实例,查询性能约有30% ~ 100%的提升。
执行引擎HQE使用限制如下:
当前仅对MaxCompute ORC类型的表有加速效果,暂不支持对Cfile等文件进行加速。
不支持加速查询MaxCompute Transactional表或表结构发生变更(Schema Evolution)的表,系统会自动切换到SQE引擎中执行。
请确保MaxCompute与Hologres表数据类型映射正确,否则会影响加速效果。
避免全表扫描
使用如下方式优化查询语句,避免查询外部表数据时扫描全表:
查询数据时使用
select a from xx
语句查询指定内容,不推荐使用select * from xx
。增加过滤分区的条件或减少扫描的分区数,实现减少扫描的数据量。
SQE查询优化
对于HQE不支持的查询场景,系统会自动切换到SQE引擎中执行,此时可能会发生性能回退,您可通过以下方式修改MaxCompute数据源表,优化数据查询性能:
转换MaxCompute表为Hash Clustering表
Hash Clustering表的优势在于可以实现Bucket Pruning优化、Aggregation优化以及存储优化。在创建表时,使用Clustered By指定Hash Key后,MaxCompute将对指定列进行Hash运算,按照Hash值分散到各个Bucket里。Hash Key值请选择重复键值少的列。
转换为Hash Clustering表语句如下。
ALTER TABLE <table_name> [CLUSTERED BY (<col_name> [, <col_name>, ...]) [SORTED BY (<col_name> [ASC | DESC] [, <col_name> [ASC | DESC] ...])] INTO <number_of_buckets> BUCKETS];
使用
ALTER TABLE
语句增加了新的聚簇属性之后,新的分区将按照Hash Clustering存储。关于Hash Clustering更多详细介绍请参见Hash Clustering。转换MaxCompute表为Range Clustering表
Range Clustering作为一种新的数据切分方式,提供了一个全局有序的数据分布,一是可以避免Hash Clustering可能造成的数据倾斜问题;二是在数据有序分布的前提下,创建两级索引(Index),支持对Clustering Key的区间查询以及多键的组合查询等场景。
转换为Range Clustering表语句如下。
ALTER TABLE <table_name> [RANGE CLUSTERED BY (<col_name> [, <col_name>, ...]) [SORTED BY (<col_name> [ASC | DESC] [, <col_name> [ASC | DESC] ...])] [INTO <number_of_buckets> BUCKETS];
使用
ALTER TABLE
语句增加了新的聚簇属性之后,新的分区将按照Range Clustering存储。关于Range Clustering更多详细介绍请参见Range Clustering。说明Hash Clustering表、Range Clustering表均不支持
INSERT INTO
语句,您需要使用INSERT OVERWRITE
语句覆盖写入数据。由于Tunnel方式上传的数据是无序的,因此Hash Clustering表、Range Clustering表均不支持通过Tunnel方式上传数据。
合并小文件
当MaxCompute中的小文件数量较多时,会降低查询表数据的速度。
您可以在MaxCompute中执行以下语句查看表的文件数量,更多有关MaxCompute小文件优化详情,请参见小文件优化及作业诊断常见问题。
desc extended <table_name>;
查询结果中的FileNum表示MaxCompute中目标表的文件数量,Size表示表总文件大小(Byte)。当表有100个以上的文件且平均文件大小小于64MB时,您可以考虑在MaxCompute中对小文件进行合并。
参数调优
查询外部表时,Hologres会设置一些默认的参数来提高读取数据的并发度,从而提高查询效率。如果您具有特殊需求,可以按照业务场景合理配置如下参数。
下列参数是经过内部调校和实验得到的最佳规格,通常不建议更改。
不建议将
hg_foreign_table_executor_max_dop
参数值设置过低。例如该参数设置为1,当实例中某张表同时存在写入和查询操作时,会导致负载集中在某些Worker上,从而引发实例OOM。
调整每次Query命中的分区数大小。
--默认512,最大为1024,不建议调整太大,会影响查询性能。 set hg_foreign_table_max_partition_limit = 128;
调整每次读取MaxCompute表batch的大小。
--默认8192。 set hg_experimental_query_batch_size = 4096;
设置MaxCompute表访问切分split的数目,可以调节并发数目。
--默认64MB,当表很大时需要调大,避免过多的split影响性能。该参数在Hologres V1.1中生效。 set hg_foreign_table_split_size = 128;
设置访问外表时的最大并发度,默认为实例的Core数。
--最大为128,不建议设置大,避免外表query(特别是数据导入场景)影响其它query,导致系统繁忙导致报错。该参数在Hologres V1.1中生效。 set hg_foreign_table_executor_max_dop = 32;
设置访问外表时执行DML语句的最大并发度。
--默认值为32,针对数据导入导出场景专门优化的参数,避免导入操作占用过多系统资源,该参数在Hologres V1.1中生效。 set hg_foreign_table_executor_dml_max_dop = 16;
导入数据至Hologres(推荐)
当对外部表数据进行大量分析计算,且存在与内部表连接的需求时,推荐在Hologres中新建内部表并导入外部表数据,您可根据业务需求,为内部表指定合适的Distribute Key索引属性,以加快查询速度。
导入数据至Hologres相比新建外部表方式查询速度更快,查询性能约有10~100倍的提升。导入MaxCompute外部表数据至Hologres的操作请参见使用SQL从MaxCompute导入。