Hologres中查看慢Query日誌並分析 - Hologres

當Hologres執行個體出現響應或查詢速度變慢時，您可以查看與分析慢Query日誌快速定位問題所在。慢Query的查看與分析可以協助您對系統中發生的慢Query或失敗Query進行識別、診斷和分析，並進一步採取最佳化措施，以提高系統整體效能。本文為您介紹在Hologres中如何查看慢Query日誌並分析。

版本說明

Hologres版本號碼

功能

說明

V0.10

新增慢Query日誌查看與分析功能。

該功能僅Hologres V0.10及以上版本支援，請在Hologres管理主控台的執行個體詳情頁查看當前執行個體版本，如果您的執行個體是V0.10以下版本，請您使用自助升級或加入HologresDingTalk交流群反饋，詳情請參見如何擷取更多的線上支援？。
Hologres V0.10版本的FAILED Query日誌，不顯示記憶體、讀盤、讀取量、CPU時間、query_stats等運行時的統計資訊。

V2.2.7

最佳化log_min_duration_statement參數預設值

慢Query日誌記錄所有的DDL語句、所有執行失敗的SQL語句以及執行時間大於log_min_duration_statement的SQL語句（例如INSERT、SELECT、UPDATE、DELETE等）。

從Hologres V2.2.7版本開始，將log_min_duration_statement預設值由1s最佳化至100ms，無需您再手動修改。若您的執行個體是V2.2.7以下版本，可使用log_min_duration_statement進行手動修改，支援最小修改為100ms。

使用限制

在Hologres中查詢慢Query日誌，具體限制如下：

慢Query日誌預設保留一個月的資料，但是HoloWeb僅支援查最近7天的資料，如果需要查詢一個月內的資料請使用SQL進行查詢。
為了保證系統穩定性，避免流量超載，單次查詢最多返回10000條慢Query日誌。慢Query日誌中的部分欄位有長度限制，詳情請參見query_log表欄位說明。
慢Query日誌屬於Hologres的元倉系統，慢Query日誌查詢失敗不會影響執行個體中的業務Query運行，故慢Query日誌的穩定性不在產品的SLA保護範圍內。

查看query_log表

Hologres的慢Query查詢日誌儲存於hologres.hg_query_log系統資料表中，其中：

在執行個體升級至V0.10版本後，將會預設採集執行時間大於100 ms的慢DML Query以及所有的DDL操作。
自V3.0.2版本開始，支援在原有的hologres.hg_query_log中，使用彙總方式記錄執行時間小於100 ms的DML和查詢的記錄。
- 系統會將執行時間小於100 ms，成功且有指紋的Query（DQL和DML）操作進行彙總記錄。
- 彙總的主要列為：server_addr、usename、datname、warehouse_id、application_name、digest。
- 每個串連每分鐘會匯總一次後上報。

hologres.hg_query_log系統資料表，包含的欄位資訊介紹如下。

欄位	欄位類型	100 ms以上DML和DQL明細記錄含義說明	100 ms以下DML和DQL彙總記錄含義說明
usename	text	查詢的使用者名稱。	查詢的使用者名稱。
status	text	查詢的最終狀態，成功或失敗。成功：SUCCESS。失敗：FAILED。	查詢的最終狀態，成功（SUCCESS），彙總資料僅記錄成功的記錄。
query_id	text	Query的ID，代表Query的唯一性。失敗的Query一定會有query_id，成功的Query不一定會有。	彙總周期內，同彙總主鍵第一個Query的Query ID。
digest	text	SQL指紋編碼。對於SELECT、INSERT、DELETE、UPDATE類型的Query，系統會計算一個MD5雜湊值作為該Query的SQL指紋。SQL指紋採集和計算規則詳情，請參見SQL指紋。說明從Hologres V2.2版本開始，新增digest列以展示SQL指紋編碼。若您的執行個體為V2.1或以下版本，可聯絡Hologres支援人員升級執行個體。	SQL指紋編碼。
datname	text	查詢的資料庫名稱。	查詢的資料庫名稱。
command_tag	text	查詢的類型。包括： DML類：COPY/DELETE/INSERT/SELECT/UPDATE等 DDL類：ALTER TABLE/BEGIN/COMMENT/COMMIT/CREATE FOREIGN TABLE/CREATE TABLE/DROP FOREIGN TABLE/DROP TABLE/IMPORT FOREIGN SCHEMA/ROLLBACK/TRUNCATE TABLE 其他：CALL/CREATE EXTENSION/EXPLAIN/GRANT/SECURITY LABEL/等	彙總周期內，同彙總主鍵第一個Query的查詢的類型。
duration	integer	查詢的耗時（ms）。 `duration`代表SQL的總耗時時間，包含： Optimization Cost：產生執行計畫的耗時，耗時較高通常是因為SQL較複雜。 Start Query Cost：Query啟動時間，耗時較高通常是因為在等鎖或者等待資源。 Get Result Cost：Query執行時間，耗時較高通常是因為計算量太大，執行時間較長，可根據業務情況最佳化SQL。其他耗時：可以通過`extend_cost`欄位進一步查看，通常包括如下耗時： build_dag : 構建執行引擎所需的計算DAG圖的耗時，如訪問外部表格，這一步會擷取外部表格中繼資料，耗時較高通常是因為訪問外部表格中繼資料耗時間長度。 prepare_reqs : 準備發往執行引擎請求的耗時，包括準備啟動並執行組件、擷取各個分區的地址等，耗時較高通常是因為向內部服務擷取分區地址耗時間長度。系統預設只展示大於1s的DML和所有DDL，可以通過GUC參數`log_min_duration_statement`修改採集時間，使用詳情請參見配置項。	彙總周期內，同彙總主鍵所有Query的查詢耗時的平均值。
message	text	報錯的資訊。	空。
query_start	timestamptz	查詢開始時間。	彙總周期內，同彙總主鍵第一個Query的查詢開始時間。
query_date	text	查詢開始日期。	彙總周期內，同彙總主鍵第一個Query的查詢開始日期。
query	text	查詢的常值內容。 Query的長度上限是51200個字元，超過可能會被截斷。	彙總周期內，同彙總主鍵第一個Query的查詢的常值內容。
result_rows	bigint	返回的行數。如果是INSERT命令，則返回插入的行數。	彙總周期內，同彙總主鍵所有Query的result_rows的平均值。
result_bytes	bigint	返回的位元組數。	彙總周期內，同彙總主鍵所有Query的result_bytes的平均值。
read_rows	bigint	讀取的資料行數。非精確值。如果使用了Bitmap索引，跟實際的掃描行數有差別。	彙總周期內，同彙總主鍵所有Query的read_rows的平均值。
read_bytes	bigint	讀取的位元組數。	彙總周期內，同彙總主鍵所有Query的read_bytes的平均值。
affected_rows	bigint	DML影響的行數。	彙總周期內，同彙總主鍵所有Query的affected_rows的平均值。
affected_bytes	bigint	DML影響的位元組數。	彙總周期內，同彙總主鍵所有Query的affected_bytes的平均值。
memory_bytes	bigint	各節點上使用的記憶體峰值的累加值（非精確）。代表Query在所有運行節點上使用的記憶體峰值的累加值。粗略地體現Query的資料讀取量。	彙總周期內，同彙總主鍵所有Query的memory_bytes的平均值。
shuffle_bytes	bigint	資料Shuffle估計位元組數（非精確）。粗略地體現資料在網路中的傳輸量。	彙總周期內，同彙總主鍵所有Query的shuffle_bytes的平均值。
cpu_time_ms	bigint	總的CPU時間，單位：毫秒（ms），非精確。體現所有計算任務所耗費的CPU時間，是多個CPU Core計算時間的累加，粗略地體現複雜度。	彙總周期內，同彙總主鍵所有Query的cpu_time_ms的平均值
physical_reads	bigint	物理讀的次數。反映從磁碟讀取Record Batch的次數，粗略地體現記憶體緩衝未命中數量。	彙總周期內，同彙總主鍵所有Query的physical_reads的平均值。
pid	integer	查詢服務進程ID。	彙總周期內，同彙總主鍵第一個Query的查詢服務進程ID。
application_name	text	查詢應用類型。其中常見的應用類型如下：阿里雲Flink（VVR版）：{client_version}_ververica-connector-hologres。開源Flink：{client_version}_hologres-connector-flink。 DataWorksData Integration離線同步讀取Hologres：datax_{jobId}。 DataWorksData Integration離線同步寫入Hologres：{client_version}_datax_{jobId}。 DataWorksData Integration即時同步：{client_version}_streamx_{jobId}。 Holoweb：holoweb。在MaxCompute中通過外部表格的方式訪問Hologres：MaxCompute。 Auto Analyze發起的SQL，用於定期更新統計資料：AutoAnalyze。 Quick BI：QuickBI_public_{version}。 DataWorks調度Hologres任務：{client_version}_dwscheduler_{tenant_id}_{scheduler_id}_{scheduler_task_id}_{bizdate}_{cyctime}_{scheduler_alisa_id}，其中： client_version：JDBC驅動版本。 scheduler_id：從環境變數`${SKYNET_ID}`擷取，如果為空白，則設定為`-`。 scheduler_task_id：從環境變數`${SKYNET_TASKID}`擷取，如果為空白，則設定為`-`。 scheduler_alisa_id：從環境變數`${ALISA_TASK_ID}`擷取，不會為空白。 bizdate：從環境變數`${SKYNET_BIZDATE}`擷取，如果為空白，則設定為`-`。 cyctime：從環境變數`${SKYNET_CYCTIME}`擷取，如果為空白，則設定為`-`。 tenant_id：從環境變數`${SKYNET_TENANT_ID}`擷取，不會為空白。資料保護傘：dsg。其餘應用建議業務上在串連Hologres時，串連串上顯式指定`application_name`。	查詢應用類型。
engine_type	text[]	查詢用到的引擎。包含如下引擎類型： HQE：Hologres的原生自研引擎，大多數查詢通過HQE實現，HQE執行效率較高。 PQE：PostgreSQL引擎，出現PQE則有SQL運算元在PQE執行，一般是含有HQE未原生支援的運算元或運算式，可根據最佳化查詢效能改寫函數方法，讓其走HQE，提高執行效率。 SDK：Fixed Plan的執行引擎，可以高效的執行點讀、點寫、PrefixScan等偏Serving類型的SQL，詳情請參見Fixed Plan加速SQL執行。說明從Hologres V2.2版本開始，SDK執行引擎正式更名為FixedQE。 PG：Frontend本地計算，一般是讀取系統資料表的中繼資料查詢，不會讀取使用者表資料，僅佔用極少數系統資源。但需要注意的是，DDL也是用PostgreSQL引擎。	彙總周期內，同彙總主鍵第一個Query的查詢用到的引擎。
client_addr	text	Query的來源地址。代表應用的出口IP，不一定是真實的應用IP。	彙總周期內，同彙總主鍵第一個Query的Query的來源地址。
table_write	text	SQL寫入的表。	彙總周期內，同彙總主鍵第一個Query的SQL寫入的表。
table_read	text[]	SQL讀取的表。	彙總周期內，同彙總主鍵第一個Query的SQL讀取的表。
session_id	text	Session ID。	彙總周期內，同彙總主鍵第一個Query的Session ID。
session_start	timestamptz	Session開啟時間。代表串連開始建立的時間。	彙總周期內，同彙總主鍵所有Query的Session開啟時間。
command_id	text	命令或語句編號ID。	彙總周期內，同彙總主鍵所有Query的命令或語句編號ID。
optimization_cost	integer	查詢執行計畫的耗時。耗時較高通常情況是SQL較複雜。	彙總周期內，同彙總主鍵所有Query的查詢執行計畫的耗時。
start_query_cost	integer	查詢啟動耗時。耗時較高通常是因為在等鎖或者等待資源。	彙總周期內，同彙總主鍵所有Query的查詢啟動耗時。
get_next_cost	integer	查詢執行耗時。耗時較高通常是因為計算量太大，執行時間較長，可根據業務情況最佳化SQL。	彙總周期內，同彙總主鍵所有Query的查詢執行耗時。
extended_cost	text	查詢的其他詳細耗時。除optimization_cost 、start_query_cost 、get_next_cost三個耗時之外的其他耗時，可以通過`extend_cost`欄位進一步查看，通常包括如下耗時。 build_dag：構建執行引擎所需的計算DAG圖的耗時，如訪問外部表格，這一步會擷取外部表格中繼資料，耗時較高通常是因為訪問外部表格中繼資料耗時間長度。 prepare_reqs：準備發往執行引擎請求的耗時，包括準備啟動並執行組件、擷取各個分區的地址等，耗時較高通常是因為向內部服務擷取分區地址耗時間長度。 serverless_allocated_cores：申請的Serverless資源量（單位：CU），僅Serverless Query有該欄位。 serverless_allocated_workers：申請的Serverless資源Worker數（單位：個），僅Serverless Query有該欄位。 serverless_resource_used_time_ms：實際使用Serverless資源執行Query的時間長度，不包含資源等待排隊時間長度。單位：毫秒（ms）。	彙總周期內，同彙總主鍵第一個Query的其他詳細耗時。
plan	text	查詢對應的執行計畫。執行計畫長度上限是102400個字元，超過可能會被截斷，可以通過GUC參數`log_min_duration_query_plan`修改長度上限，使用詳情請參見配置項。	彙總周期內，同彙總主鍵第一個Query的查詢對應的執行計畫。
statistics	text	查詢對應的執行統計資訊。統計資訊長度上限是102400個字元，超過可能會被截斷，可以通過GUC參數`log_min_duration_query_stats`修改長度上限，使用詳情請參見配置項。	彙總周期內，同彙總主鍵第一個Query的查詢對應的執行統計資訊。
visualization_info	text	查詢Plan可視化資訊。	彙總周期內，同彙總主鍵第一個Query的查詢Plan可視化資訊。
query_detail	text	查詢的其他擴充資訊（JSON格式儲存）。說明擴充資訊長度上限是10240個字元，超過可能會被截斷。	彙總周期內，同彙總主鍵第一個Query的查詢的其他擴充資訊。
query_extinfo	text[]	serverless_computing：僅使用Serverless資源執行的Query有該欄位。查詢的其他擴充資訊（ARRAY格式儲存），自V2.0.29版本開始，query_extinfo欄位會採集賬戶的AccessKey ID，用於輔助判斷賬戶歸屬人。說明本地帳號登入、SLR登入、STS登入不會記錄AccessKey ID。若使用臨時帳號登入，僅記錄臨時AccessKey ID。	彙總周期內，同彙總主鍵第一個Query的其他擴充資訊。
calls	INT	因為明細記錄無彙總行為，所以為1。	表示在彙總周期內，相同彙總主鍵的查詢數量。
agg_stats	JSONB	空。	記錄在彙總周期內，相同彙總主鍵的查詢的duration、memory_bytes、cpu_time_ms、physical_reads、optimization_cost、start_query_cost、get_next_cost等數值欄位的MIN、MAX、AVG等統計值。
extended_info	JSONB	其他擴充資訊。記錄Query Queue、Serverless Computing等擴充資訊。 serverless_computing_source：表示SQL來源，表示使用Serverless Computing資源執行的SQL。取值如下： user_submit：自行指定使用Serverless資源執行的SQL，與Query Queue無關。 query_queue：指定查詢隊列的SQL全部由Serverless資源執行詳情，請參見使用Serverless Computing資源執行查詢隊列的查詢。 query_queue_rerun：通過Query Queue的大查詢控制功能，自動使用Serverless資源重新啟動並執行SQL詳情，請參見大查詢控制。 query_id_of_triggered_rerun：該欄位僅在serverless_computing_source為query_queue_rerun時存在，表示重新啟動並執行SQL對應的原始Query ID。	空。

說明

calls、agg_stats欄位為V3.0.2版本新增欄位。

授予查看許可權

慢Query日誌需要有一定的許可權才能查看，其許可權規則和授權方式說明如下：

查看執行個體所有DB的慢Query日誌。
- 授予使用者Superuser許可權。
  Superuser帳號可以查看執行個體所有DB的全部慢Query日誌，給使用者授予Superuser使用者的許可權，使使用者有許可權查看執行個體所有DB的慢Query日誌。
```
ALTER USER "雲帳號ID" SUPERUSER;--將“雲帳號ID”替換為實際使用者名稱。如果是RAM使用者，帳號ID前需要添加“p4_”。
```
- 將使用者添加到pg_read_all_stats使用者組。
  除Superuser外，Hologres還支援pg_read_all_stats使用者組查看所有DB慢Query日誌，普通使用者如果需要查看所有日誌，可以聯絡Superuser授權加入該使用者組。授權方式如下：
```
GRANT pg_read_all_stats TO "雲帳號ID";--專家許可權模型授權
CALL spm_grant('pg_read_all_stats', '雲帳號ID');  -- SPM許可權模型
CALL slpm_grant('pg_read_all_stats', '雲帳號ID'); -- SLPM許可權模型
```
查看本DB的慢Query日誌。
開啟簡單許可權模型（SPM）或基於Schema層級的簡單許可權模型（SLPM），將使用者加入db_admin使用者組，db_admin角色可以查看本DB的query日誌。
```
CALL spm_grant('<db_name>_admin', '雲帳號ID');  -- SPM許可權模型
CALL slpm_grant('<db_name>.admin', '雲帳號ID'); -- SLPM許可權模型
```
普通使用者只能查詢當前帳號對應DB下自己執行的慢Query日誌。

HoloWeb可視化查看慢Query

您可以通過HoloWeb可視化查看慢Query日誌。

說明

當前HoloWeb支援查看最多七天的歷史慢Query日誌。
僅支援Superuser帳號查看，普通有許可權的帳號請使用SQL命令查看。

登入HoloWeb控制台，詳情請參見串連HoloWeb並執行查詢。
單擊頂部導覽列的診斷與最佳化。
在左側導覽列單擊歷史慢Query。
在歷史慢Query頁面頂部，編輯查詢條件。
參數說明請參見歷史慢Query。
單擊查詢，在Query趨勢分析和Query列表地區展示查詢結果。
- Query趨勢分析
  Query趨勢分析通過可視化的方式展示近期慢Query、失敗Query發生的趨勢，可以重點監控慢Query發生頻率較高的階段，更好的定位問題高發期並集中解決問題。
- Query列表
  Query列表可視化展示慢Query、失敗Query的詳細資料，參數說明請參見歷史慢Query。也可以單擊自訂欄選擇Query列表需要展示的列資訊。

SQL指紋

自Hologres V2.2版本起，存放慢Query查詢日誌的系統資料表hologres.hg_query_log中，新增digest列以展示SQL指紋。對於SELECT/INSERT/DELETE/UPDATE類型的Query，系統會計算一個MD5雜湊值作為該Query的SQL指紋，以協助業務進一步Query歸類分析。

SQL指紋的採集和計算規則如下：

預設僅採集SELECT、INSERT、DELETE以及UPDATE四種類型Query的指紋。
對於INSERT語句，以常量方式插入表時，SQL指紋不受插入資料量的影響。
SQL指紋計算時，對SQL語句字母大小寫處理規則和Hologres在查詢時SQL語句字母大小寫規則保持一致。
SQL指紋計算時，會忽略查詢中所有空白符（如空格、換行、定位字元等）的影響，只考慮SQL語句內的結構資訊。
SQL指紋計算時，會忽略查詢中具體的常數值對於指紋的影響。
樣本：查詢SELECT * FROM t WHERE a > 1;與查詢SELECT * FROM t WHERE a > 2;所對應的SQL指紋是一致的。
對於Query中的常數陣列，SQL指紋的計算不受數組中元素個數的影響。
樣本：查詢SELECT * FROM t WHERE a IN (1, 2);和查詢SELECT * FROM t WHERE a IN (3, 4, 5);的SQL指紋是相同的。
SQL指紋計算時，會考慮資料庫名稱，並自動補全每張表的模式（Schema）屬性，以表名和表的屬性共同區分不同查詢中的表。
樣本：對於查詢SELECT * FROM t;和查詢SELECT * FROM public.t;而言，只有當表t位於public模式並且兩個查詢對應同一張表時，其SQL指紋才相同。

診斷Query

您可以通過查詢hologres.hg_query_log表，擷取慢Query日誌。如下將為您介紹進行Query日誌診斷常用的固定SQL語句。主要包括：

查詢query_log總查詢數
查詢每個使用者的慢Query情況
查詢某個慢Query的具體資訊
查詢最近10分鐘消耗比較高的Query
查看最近3小時內每小時的Query訪問量和資料讀取總量
查看與昨天同一時間對比過去3小時的資料訪問量情況
查詢最近10分鐘Query各階段耗時比較高的Query
查詢最先失敗的Query
查詢query_log總查詢數（預設為近1個月內的資料）。
```
SELECT count(*) FROM hologres.hg_query_log;
```
執行結果如下，表示近1個月內總共執行了44個耗時大於指定閾值的Query。
```
count
-------
    44
(1 row)
```

查詢每個使用者的慢Query個數。

SELECT usename AS "使用者",
       count(1) as "Query個數"
FROM hologres.hg_query_log
GROUP BY usename
order by count(1) desc;

執行結果如下，其中count(1)的單位是個數。

使用者                   | Query個數
-----------------------+-----
 1111111111111111      |  27
 2222222222222222      |  11
 3333333333333333      |   4
 4444444444444444      |   2
(4 rows)

查詢某個慢Query的具體資訊。

SELECT * FROM hologres.hg_query_log WHERE query_id = '13001450118416xxxx';

執行結果如下，更多關於各參數的說明，請參見查看query_log表。

       usename      | status  |      query_id      | datname| command_tag | duration | message |      query_start       | query_date |                                             query                                                  | result_rows | result_bytes | read_rows |read_bytes | affected_rows | affected_bytes | memory_bytes | shuffle_bytes | cpu_time_ms | physical_reads |   pid   | application_name | engine_type |  client_addr  | table_write | table_read |   session_id   |     session_start      | command_id | optimization_cost | start_query_cost | get_next_cost | extended_cost | plan | statistics | visualization_info | query_detail | query_extinfo
-----------------------+---------+--------------------+---------+-------------+----------+---------+------------------------+------------+---------------------------------------------------------------------------------------------------------+-------------+--------------+-----------+------------+---------------+----------------+--------------+---------------+-------------+----------------+---------+------------------+-------------+---------------+-------------+------------+-----------------+------------------------+------------+-------------------+------------------+---------------+---------------+------+------------+--------------------+--------------+---------------
 p4_11111111111xxxx | SUCCESS | 13001450118416xxxx | dbname | SELECT      |      149 |         | 2021-03-30 23:45:01+08 | 20210330   | explain analyze SELECT  * FROM tablename WHERE user_id = '20210330010xxxx' limit 1000;             |        1000 |       417172 |         0 |         0 |            -1 |             -1 |     26731376 |     476603616 |      321626 |              0 | 1984913 | psql             | {HQE}      | 33.41.xxx.xxx |             |            | 6063475a.1e4991 | 2021-03-30 23:44:26+08 | 0          |                58 |               22 |            67 |               |      |            |                    |              |
(1 row)

查詢最近某個時間段（如10分鐘）消耗比較高的Query。您也可以根據業務需求修改具體時間，查詢目標時間段消耗比較高的Query。

SELECT status AS "狀態",
       duration AS "耗時(ms)",
       query_start AS "開始時間",
       (read_bytes/1048576)::text || ' MB' AS "讀取量",
       (memory_bytes/1048576)::text || ' MB' AS "記憶體",
       (shuffle_bytes/1048576)::text || ' MB' AS "Shuffle",
       (cpu_time_ms/1000)::text || ' s' AS "CPU時間",
       physical_reads as "讀盤",
       query_id as "QueryID",
       query::char(30)
 FROM hologres.hg_query_log
 WHERE query_start >= now() - interval '10 min'
 ORDER BY duration DESC,
          read_bytes DESC,
          shuffle_bytes DESC,
          memory_bytes DESC,
          cpu_time_ms DESC,
          physical_reads DESC
LIMIT 100;

執行結果如下：

狀態     |耗時(ms) |    開始時間            | 讀取量 | 記憶體  | Shuffle | CPU時間 | 讀盤 |      QueryID       |             query
---------+---------+------------------------+--------+-------+---------+---------+------+--------------------+--------------------------------
 SUCCESS |  149    | 2021-03-30 23:45:01+08 | 0 MB   | 25 MB | 454 MB  | 321 s   |    0 | 13001450118416xxxx | explain analyze SELECT  * FROM
 SUCCESS |  137    | 2021-03-30 23:49:18+08 | 247 MB | 21 MB | 213 MB  | 803 s   | 7771 | 13001491818416xxxx | explain analyze SELECT  * FROM
 FAILED  |   53    | 2021-03-30 23:48:43+08 | 0 MB   | 0 MB  | 0 MB    | 0 s     |    0 | 13001484318416xxxx | SELECT ds::bigint / 0 FROM pub
(3 rows)

查看昨日新增的Query數量。

統計昨日新增的Query總量。

SELECT
    COUNT(1)
FROM ( SELECT DISTINCT
        t1.digest
    FROM
        hologres.hg_query_log t1
    WHERE
        t1.query_start >= CURRENT_DATE - INTERVAL '1 day'
        AND t1.query_start < CURRENT_DATE
        AND NOT EXISTS (
            SELECT
                1
            FROM
                hologres.hg_query_log t2
            WHERE
                t2.digest = t1.digest
                AND t2.query_start < CURRENT_DATE - INTERVAL '1 day')
        AND digest IS NOT NULL
 ) AS a;

執行結果如下，表示昨日新增Query總量為10個。

count  
-------
    10 
(1 row)

按照查詢的類型（command_tag）分組統計昨日新增的Query數量。

SELECT
    a.command_tag,
    COUNT(1)
FROM ( SELECT DISTINCT
        t1.digest,
        t1.command_tag
    FROM
        hologres.hg_query_log t1
    WHERE
        t1.query_start >= CURRENT_DATE - INTERVAL '1 day'
        AND t1.query_start < CURRENT_DATE
        AND NOT EXISTS (
            SELECT
                1
            FROM
                hologres.hg_query_log t2
            WHERE
                t2.digest = t1.digest
                AND t2.query_start < CURRENT_DATE - INTERVAL '1 day')
            AND t1.digest IS NOT NULL) AS a
GROUP BY
    1
ORDER BY
    2 DESC;

執行結果如下，表示昨日新增8個INSERT和2個SELECT類型的Query。

command_tag	| count  
------------+--------
INSERT	    |    8   
SELECT	    |    2
(2 rows)

查看昨日新增的Query明細。

SELECT
    a.usename,
    a.status,
    a.query_id,
    a.digest, 
    a.datname,
    a.command_tag,
    a.query,
    a.cpu_time_ms,
    a.memory_bytes
FROM (
    SELECT DISTINCT
        t1.usename,
        t1.status,
        t1.query_id,
        t1.digest, 
        t1.datname,
        t1.command_tag,
        t1.query,
        t1.cpu_time_ms,
        t1.memory_bytes
    FROM
        hologres.hg_query_log t1
    WHERE
         t1.query_start >= CURRENT_DATE - INTERVAL '1 day' 
        AND t1.query_start < CURRENT_DATE 
        AND NOT EXISTS (
            SELECT
                1
            FROM
                hologres.hg_query_log t2
            WHERE
                t2.digest = t1.digest
                AND t2.query_start < CURRENT_DATE - INTERVAL '1 day'
        )
        AND t1.digest IS NOT NULL
) AS a;

執行結果如下：

usename	         |status  |query_id	           |digest	                            |datname|command_tag	|query	                            |cpu_time_ms   |memory_bytes
-----------------+--------+--------------------+------------------------------------+-------+-------------+-----------------------------------+--------------+--------------
111111111111xxxx |SUCCESS |100100425827776xxxx |md58cf93d91c36c6bc9998add971458ba1a |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  | 	   		 1748|	   898808596
111111111111xxxx |SUCCESS |100100425827965xxxx |md5f7e87e2c9e0b3d9eddcd6b3bc7f04b3b |dbname	|INSERT       |INSERT INTO xxx SELECT * FROM xxx  | 	   		59891|	  6819529886
111111111111xxxx |SUCCESS |100100425829654xxxx |md55612dc09d2d81074fd5deed1aa3eca9b |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  |   	   		  3|	     2100039
111111111111xxxx |SUCCESS |100100425829664xxxx |md58d3bf67fbdf2247559bc916586d40011 |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  |     		10729|	  2052861937
111111111111xxxx |SUCCESS |100100425830099xxxx |md503bd45d6b2d7701c2617d079b4d55a10 |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  |	   		   2196|     897948034
111111111111xxxx |SUCCESS |100100425830186xxxx |md5c62169eaf3ea3a0c59bdc834a8141ac4 |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  |	   		   5268|    1734305972
111111111111xxxx |SUCCESS |100100425830448xxxx |md59aa0c73b24c9c9eba0b34c8fdfc23bb0 |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  |	   		      2|       2098402
111111111111xxxx |SUCCESS |100100425830459xxxx |md57d22c1d37b68984e9472f11a4c9fd04e |dbname	|INSERT	      |INSERT INTO xxx SELECT * FROM xxx  |	   		    113|      76201984
111111111111xxxx |SUCCESS |100100525468694xxxx |md5ac7d6556fae123e9ea9527d8f1c94b1c |dbname	|SELECT	      |SELECT * FROM xxx limit 200	      |     		    6|	     1048576
111111111111xxxx |SUCCESS |100101025538840xxxx |md547d09cdad4d5b5da74abaf08cba79ca0 |dbname	|SELECT	      |SELECT * FROM xxx limit 200	      |\N	           |\N        
(10 rows)

查看昨日新增的Query趨勢（按小時展示）。

SELECT
    to_char(a.query_start, 'HH24') AS query_start_hour,
    a.command_tag,
    COUNT(1)
FROM (
    SELECT DISTINCT
        t1.query_start,
        t1.digest,
        t1.command_tag
    FROM
        hologres.hg_query_log t1
    WHERE
         t1.query_start >= CURRENT_DATE - INTERVAL '1 day' 
         AND t1.query_start < CURRENT_DATE 
         AND NOT EXISTS (
            SELECT
                1
            FROM
                hologres.hg_query_log t2
            WHERE
                t2.digest = t1.digest
                AND t2.query_start < CURRENT_DATE - INTERVAL '1 day'
         )
         AND t1.digest IS NOT NULL
) AS a 
GROUP BY 1, 2
ORDER BY 
	3 DESC;

執行結果如下，表示在昨日的11時、13時、21時分別新增了1個SELECT、1個SELECT、8個INSERT類型的Query。

query_start_hour	|command_tag	|count
------------------+-------------+-----
	            21	|INSERT	      |    8
	            11	|SELECT	      |    1
	            13	|SELECT	      |    1
(3 rows)

歸類慢Query的次數。

SELECT
    digest,
    command_tag,
    count(1)
FROM
    hologres.hg_query_log
WHERE
    query_start >= CURRENT_DATE - INTERVAL '1 day'
    AND query_start < CURRENT_DATE
GROUP BY
    1,2
ORDER BY
    3 DESC;

查詢過去1天CPU平均耗時前十的Query。

SELECT
    digest,
    avg(cpu_time_ms)
FROM
    hologres.hg_query_log
WHERE
    query_start >= CURRENT_DATE - INTERVAL '1 day'
    AND query_start < CURRENT_DATE
    AND digest IS NOT NULL
    AND usename != 'system'
    AND cpu_time_ms IS NOT NULL
GROUP BY
    1
ORDER BY
    2 DESC
LIMIT 10;

查看過去一周記憶體（memory_bytes）平均消耗量前十的Query。

SELECT
    digest,
    avg(memory_bytes)
FROM
    hologres.hg_query_log
WHERE
    query_start >= CURRENT_DATE - INTERVAL '7 day'
    AND query_start < CURRENT_DATE
    AND digest IS NOT NULL
    AND memory_bytes IS NOT NULL
GROUP BY
    1
ORDER BY
    2 DESC
LIMIT 10;

查看最近3小時內每小時的Query訪問量和資料讀取總量，用於對比判斷每個小時是否有資料量變化。

SELECT
    date_trunc('hour', query_start) AS query_start,
    count(1) AS query_count,
    sum(read_bytes) AS read_bytes,
    sum(cpu_time_ms) AS cpu_time_ms
FROM
    hologres.hg_query_log
WHERE
    query_start >= now() - interval '3 h'
GROUP BY 1;

查看與昨天同一時間對比過去3小時的資料訪問量情況，用於判斷相較於昨日是否有資料量訪問變化。

SELECT
    query_date,
    count(1) AS query_count,
    sum(read_bytes) AS read_bytes,
    sum(cpu_time_ms) AS cpu_time_ms
FROM
    hologres.hg_query_log
WHERE
    query_start >= now() - interval '3 h'
GROUP BY
    query_date
UNION ALL
SELECT
    query_date,
    count(1) AS query_count,
    sum(read_bytes) AS read_bytes,
    sum(cpu_time_ms) AS cpu_time_ms
FROM
    hologres.hg_query_log
WHERE
    query_start >= now() - interval '1d 3h'
    AND query_start <= now() - interval '1d'
GROUP BY
    query_date;

查詢最近時間段（如最近10分鐘）Query各階段耗時比較高的Query。您也可以根據業務需求修改具體時間，查詢目標時間段Query各階段耗時比較高的Query。

SELECT
    status AS "狀態",
    duration AS "耗時(ms)",
    optimization_cost AS "最佳化耗時(ms)",
    start_query_cost AS "啟動耗時(ms)",
    get_next_cost AS "執行耗時(ms)",
    duration - optimization_cost - start_query_cost - get_next_cost AS "其他耗時(ms)",
    query_id AS "QueryID",
    query::char(30)
FROM
    hologres.hg_query_log
WHERE
    query_start >= now() - interval '10 min'
ORDER BY
    duration DESC,
    start_query_cost DESC,
    optimization_cost,
    get_next_cost DESC,
    duration - optimization_cost - start_query_cost - get_next_cost DESC
LIMIT 100;

執行結果如下：

狀態     | 耗時(ms) | 最佳化耗時(ms) | 啟動耗時(ms) | 執行耗時(ms) | 其他耗時(ms) |      QueryID       |             query
---------+----------+--------------+--------------+--------------+--------------+--------------------+--------------------------------
 SUCCESS |     4572 |          521 |          320 |         3726 |            5 | 6000260625679xxxx  | -- /* user: wang ip: xxx.xx.x
 SUCCESS |     1490 |          538 |           98 |          846 |            8 | 12000250867886xxxx | -- /* user: lisa ip: xxx.xx.x
 SUCCESS |     1230 |          502 |           95 |          625 |            8 | 26000512070295xxxx | -- /* user: zhang ip: xxx.xx.
(3 rows)

查詢最先失敗的Query。

SELECT
    status AS "狀態",
    regexp_replace(message, '\n', ' ')::char(150) AS "報錯資訊",
    duration AS "耗時(ms)",
    query_start AS "開始時間",
    query_id AS "QueryID",
    query::char(100) AS "Query"
FROM
    hologres.hg_query_log
WHERE
    query_start BETWEEN '2021-03-25 17:00:00'::timestamptz AND '2021-03-25 17:42:00'::timestamptz + interval '2 min'
    AND status = 'FAILED'
ORDER BY
    query_start ASC
LIMIT 100;

執行結果如下：

狀態    |                                                                     報錯資訊                                                                           | 耗時(ms)  |        開始時間        |     QueryID       | Query
--------+--------------------------------------------------------------------------------------------------------------------------------------------------------+-------+------------------------+-------------------+-------
 FAILED | Query:[1070285448673xxxx] code: kActorInvokeError msg: "[holo_query_executor.cc:330 operator()] HGERR_code XX000 HGERR_msge internal error: status { c |  1460 | 2021-03-25 17:28:54+08 | 1070285448673xxxx | S...
 FAILED | Query:[1016285560553xxxx] code: kActorInvokeError msg: "[holo_query_executor.cc:330 operator()] HGERR_code XX000 HGERR_msge internal error: status { c |   131 | 2021-03-25 17:28:55+08 | 1016285560553xxxx | S...
(2 rows)

慢Query日誌匯出

Hologres支援使用INSERT語句將慢Query日誌（hg_query_log）中的資料匯出到您自訂的內部表或者MaxCompute、OSS等外部表格。

注意事項。
為了正確和高效地匯出慢Query日誌中的資料，您需要注意以下幾點。
- 執行INSERT INTO ... SELECT ... FROM hologres.hg_query_log;的帳號，需要有hologres.hg_query_log表的相應存取權限，詳情請參見授予查看許可權。如果需要匯出全執行個體的慢Query日誌，則需要執行INSERT命令的帳號擁有Superuser或者pg_read_all_stats許可權，否則查詢的hologres.hg_query_log表資料不全，導致匯出的資料不完整。
- query_start是慢Query日誌表的索引，按照時間範圍匯出時，查詢條件請帶上query_start列來選擇時間範圍，這樣效能更好，資源消耗更少。
- 使用query_start篩選時間範圍時，不要在query_start上再巢狀表格達式，否則會妨礙索引命中。例如WHERE to_char(query_start, 'yyyymmdd') = '20220101';更好的寫法應該是：WHERE query_start >= to_char('20220101', 'yyyy-mm-dd') and query_start < to_char('20220102', 'yyyy-mm-dd');。

樣本一：匯出至Hologres內部表。

在Hologres中執行如下命令將慢Query日誌匯出至query_log_download內部表。

--Hologres SQL
CREATE TABLE query_log_download (
    usename text,
    status text,
    query_id text,
    datname text,
    command_tag text,
    duration integer,
    message text,
    query_start timestamp with time zone,
    query_date text,
    query text,
    result_rows bigint,
    result_bytes bigint,
    read_rows bigint,
    read_bytes bigint,
    affected_rows bigint,
    affected_bytes bigint,
    memory_bytes bigint,
    shuffle_bytes bigint,
    cpu_time_ms bigint,
    physical_reads bigint,
    pid integer,
    application_name text,
    engine_type text[],
    client_addr text,
    table_write text,
    table_read text[],
    session_id text,
    session_start timestamp with time zone,
    trans_id text,
    command_id text,
    optimization_cost integer,
    start_query_cost integer,
    get_next_cost integer,
    extended_cost text,
    plan text,
    statistics text,
    visualization_info text,
    query_detail text,
    query_extinfo text[]
);

INSERT INTO query_log_download SELECT
  usename,
  status,
  query_id,
  datname,
  command_tag,
  duration,
  message,
  query_start,
  query_date,
  query,
  result_rows,
  result_bytes,
  read_rows,
  read_bytes,
  affected_rows,
  affected_bytes,
  memory_bytes,
  shuffle_bytes,
  cpu_time_ms,
  physical_reads,
  pid,
  application_name,
  engine_type,
  client_addr,
  table_write,
  table_read,
  session_id,
  session_start,
  trans_id,
  command_id,
  optimization_cost,
  start_query_cost,
  get_next_cost,
  extended_cost,
  plan,
  statistics,
  visualization_info,
  query_detail,
  query_extinfo
FROM hologres.hg_query_log
WHERE query_start >= '2022-08-03'
  		AND query_start < '2022-08-04';

樣本二：匯出至MaxCompute外部表格。

在MaxCompute側使用如下命令建立接收資料的表。

CREATE TABLE if NOT EXISTS mc_holo_query_log (
    username STRING COMMENT '查詢的使用者名稱'
    ,status STRING COMMENT '查詢的最終狀態，成功或失敗'
    ,query_id STRING COMMENT '查詢ID'
    ,datname STRING COMMENT '查詢的資料庫名'
    ,command_tag STRING COMMENT '查詢的類型'
    ,duration BIGINT COMMENT '查詢的耗時(ms)'
    ,message STRING COMMENT '報錯的資訊'
    ,query STRING COMMENT '查詢的常值內容'
    ,read_rows BIGINT COMMENT '查詢讀取的行數'
    ,read_bytes BIGINT COMMENT '查詢讀取的位元組數'
    ,memory_bytes BIGINT COMMENT '單節點峰值記憶體消耗（非精確)'
    ,shuffle_bytes BIGINT COMMENT '資料Shuffle估計位元組數（非精確）'
    ,cpu_time_ms BIGINT COMMENT '總的CPU時間(毫秒，非精確)'
    ,physical_reads BIGINT COMMENT '物理讀的次數'
    ,application_name STRING COMMENT '查詢應用類型'
    ,engine_type ARRAY<STRING> COMMENT '查詢用到的引擎'
    ,table_write STRING COMMENT 'SQL改寫的表'
    ,table_read ARRAY<STRING> COMMENT 'SQL讀取的表'
    ,plan STRING COMMENT '查詢對應的plan'
    ,optimization_cost BIGINT COMMENT '查詢執行計畫的耗時'
    ,start_query_cost BIGINT COMMENT '查詢啟動耗時'
    ,get_next_cost BIGINT COMMENT '查詢執行耗時'
    ,extended_cost STRING COMMENT '查詢的其他詳細耗時'
    ,query_detail STRING COMMENT '查詢的其他擴充資訊(JSON格式儲存)'
    ,query_extinfo ARRAY<STRING> COMMENT '查詢的其他擴充資訊(ARRAY格式儲存)'
    ,query_start STRING COMMENT '查詢開始時間'
    ,query_date STRING COMMENT '查詢開始日期'
) COMMENT 'hologres instance query log daily'
PARTITIONED BY (
    ds STRING COMMENT 'stat date'
) LIFECYCLE 365;

ALTER TABLE mc_holo_query_log ADD PARTITION (ds=20220803);

在Hologres側使用如下命令將慢Query日誌匯出至MaxCompute外部表格。

IMPORT FOREIGN SCHEMA project_name LIMIT TO (mc_holo_query_log)
FROM SERVER odps_server INTO public;

INSERT INTO mc_holo_query_log
SELECT
    usename AS username,
    status,
    query_id,
    datname,
    command_tag,
    duration,
    message,
    query,
    read_rows,
    read_bytes,
    memory_bytes,
    shuffle_bytes,
    cpu_time_ms,
    physical_reads,
    application_name,
    engine_type,
    table_write,
    table_read,
    plan,
    optimization_cost,
    start_query_cost,
    get_next_cost,
    extended_cost,
    query_detail,
    query_extinfo,
    query_start,
    query_date,
    '20220803'
FROM
    hologres.hg_query_log
WHERE
    query_start >= '2022-08-03'
    AND query_start < '2022-08-04';

配置項

為了實現針對性地記錄目標Query，Hologres有如下配置項可供選擇。

log_min_duration_statement

配置項說明

該配置項記錄慢Query的最短耗時，系統預設採集大於100ms的Query，但是查詢時預設僅展示大於1s的Query，如需修改預設的展示時間，可以通過該配置項控制。需要注意的是：

修改此配置項僅對新Query生效，對於已經採集的Query，則按照原預設值展示。
只有超級使用者（Superuser）可以改變這個設定。
設定為-1將則表示不記錄任何查詢。為正數時，最小值支援設定為100ms。

使用樣本

設定在慢Query日誌中所有已耗用時間等於或者超過250ms的SQL語句可以被查詢出來：

-- DB層級設定，需要superuser設定
ALTER DATABASE dbname SET log_min_duration_statement = '250ms';

-- 當前Session層級設定，普通使用者可以執行
SET log_min_duration_statement = '250ms';

log_min_duration_query_stats

配置項說明

該配置項記錄Query執行時的統計資訊，系統預設記錄大於10s的Query執行時的統計資訊，需要注意的是：

修改此配置項僅對新Query生效，已被記錄的Query按照原預設值展示。
設定為-1則關閉對Query統計資訊的記錄。
此資訊儲存量較高，記錄較多會降低查詢分析慢Query日誌的速度，因此可以在排查具體問題時設定小於10s，否則不建議調整為更小的值。

使用樣本

設定記錄大於20s的Query執行時的統計資訊：

--DB層級設定，需要superuser設定
ALTER DATABASE dbname SET log_min_duration_query_stats = '20s';

-- 當前Session層級設定，普通使用者可以執行
SET log_min_duration_query_stats = '20s';

log_min_duration_query_plan

配置項說明

該配置項記錄Query的執行計畫資訊，系統將會預設展示大於等於10s的慢Query日誌的執行計畫，需要注意：

修改此配置項僅對新Query生效，已被記錄的Query按照原預設值展示。
如果某個語句的執行時間大於或者等於設定的毫秒數，那麼在慢Query日誌上記錄該語句的執行計畫。
執行計畫一般情況下可以即時地通過explain得到，無需特別記錄。
設定為-1則關閉對Query執行計畫的記錄。

使用樣本

設定記錄大於10s的Query日誌的執行計畫：

-- DB層級設定，需要superuser設定
ALTER DATABASE dbname SET log_min_duration_query_plan = '10s';

-- 當前Session設定，普通使用者可以執行
SET log_min_duration_query_plan = '10s';

常見問題

問題現象：
在Hologres V1.1版本中，查看慢Query日誌，無法顯示查詢行數、返回行數等資訊。
可能原因：
慢Query日誌採集不完整。
解決方案：
在Hologres V1.1.36至V1.1.49版本可以通過如下GUC參數使其顯示完整。在HologresV1.1.49及以上版本可直接顯示。
說明
如果您的Hologres執行個體版本低於 V1.1.36，請您使用自助升級或加入HologresDingTalk交流群反饋，詳情請參見如何擷取更多的線上支援？。
```
--（建議）資料庫層級，一個db設定一次即可。
ALTER databse <db_name> SET hg_experimental_force_sync_collect_execution_statistics = ON;

--session層級
SET hg_experimental_force_sync_collect_execution_statistics = ON;
```
db_name為資料庫名稱。

Hologres：慢Query日誌查看與分析

版本說明

使用限制

查看query_log表

授予查看許可權

HoloWeb可視化查看慢Query

SQL指紋

診斷Query

慢Query日誌匯出

配置項

log_min_duration_statement

log_min_duration_query_stats

log_min_duration_query_plan

常見問題

相關文檔