Spark SQL诊断优化 - 云原生数据仓库AnalyticDB

云原生数据仓库 AnalyticDB MySQL 版推出Spark SQL诊断功能，若您提交的Spark SQL存在性能问题，您可以根据诊断信息快速定位、分析并解决性能瓶颈问题，优化Spark SQL。本文主要介绍如何进行Spark SQL性能诊断以及性能诊断的示例。

前提条件

集群的产品系列为湖仓版。
已创建Job型资源组。具体操作，请参见新建资源组。
已创建数据库账号。
- 如果是通过阿里云账号访问，只需创建高权限账号。具体操作，请参见创建高权限账号。
- 如果是通过RAM用户访问，需要创建高权限账号和普通账号并且将RAM用户绑定到普通账号上。具体操作，请参见创建数据库账号和绑定或解绑RAM用户与数据库账号。
已授权AnalyticDB for MySQL扮演AliyunADBSparkProcessingDataRole角色来访问其他云资源。具体操作，请参见账号授权。

仅支持诊断14天以内且执行成功的Spark SQL。

在左侧导航栏，单击诊断优化 > Spark SQL诊断优化。

查询列表展示SQL查询的更多信息，例如具体的SQL语句、查询提交时间、执行耗时等，详细说明如下：

字段名	字段说明
操作	单击诊断，查看执行详情，包括详细SQL语句以及诊断结果。
SQL	SQL语句。
查询ID	查询ID。
执行ID	Spark SQL应用中该SQL的顺序ID。
状态	SQL语句的执行状态，包括：已完成运行中失败
开始时间	查询提交的时间。
执行耗时	SQL语句的执行耗时。
最大算子独占时间	算子单独占用的最大执行时间。
峰值内存	查询消耗的峰值内存。
扫描数据	查询从存储层返回到计算层的数据量。

AnalyticDB for MySQL的Spark SQL诊断功能可以对Spark SQL查询的Query级别的信息进行统计，再在统计信息的基础上进行诊断并提供调优建议。