Hologres支援的通用彙總函式有哪些 - Hologres

Hologres相容PostgreSQL，支援使用標準的PostgreSQL文法進行開發，本文為您介紹Hologres已支援的通用彙總函式。

當前Hologres版本支援的函數是PostgreSQL的一個子集，函數的使用方法請參見通用彙總函式。 Hologres已支援的通用彙總函式列表如下。

函數	功能
APPROX_COUNT_DISTINCT	計算某一列去重後的行數，結果只能返回一個值，並且該值為近似值。
APPROX_PERCENTILE	計算近似數值列的百分位值。說明 Hologres 從 3.1 版本開始支援 APPROX_PERCENTILE。
ARRAY_AGG	將運算式的值串聯到數組中。
AVG	計算BIGINT、FLOAT8、FLOAT4或INT類型運算式中非空值的平均值。
BIT_AND	在BIGINT或INT類型的運算式中，對非空值進行按位與運算。
BIT_OR	對BIGINT或INT類型運算式中的非空值進行按位或運算。
BOOL_AND	計算BOOLEAN類型運算式中值是否均為TRUE。
BOOL_OR	計算BOOLEAN類型運算式中值是否包含TRUE。
CORR	計算兩個變數之間的相關係數。
COUNT	擷取指定表的行數或BIGINT、NUMERIC類型運算式的輸入行數。
COVAR_POP	計算總體共變數。
COVAR_SAMP	計算樣本共變數。
EVERY	判斷BOOLEAN運算式的值是否均為TRUE。
MAX	擷取BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式的最大值。
MAX_BY	用於比較某一列（y列）的最大值，並擷取y列最大值對應其他指定列（x列）的值。
MIN	擷取BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式的最小值。
MIN_BY	用於比較某一列（y列）的最小值，並擷取y列最小值對應其他指定列（x列）的值。
REGR_AVGX	計算自變數（X）的平均值。
REGR_AVGY	計算因變數（Y）的平均值。
REGR_COUNT	計算輸入參數中都不為空白的行數。
REGR_R2	計算相關係數的平方。
REGR_INTERCEPT	計算由`(Y, X)`確定的最小方差擬合的縱軸截距。
REGR_SLOPE	計算最小方差擬合的斜率。
REGR_SXX	計算自變數（X）的平方和，即`sum(X^2) - sum(X)^2/N`。
REGR_SXY	計算自變數（X）和因變數（Y）的乘積和，即`sum(XY) - sum(X) sum(Y)/N`。
SUM	擷取BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式所有值的總和。
STDDEV	計算INT、NUMERIC或FLOAT8類型運算式的樣本標準差。
STDDEV_POP	計算INT、NUMERIC或FLOAT8類型運算式的總體標準差。
STDDEV_SAMP	計算INT、NUMERIC、FLOAT8類型運算式的樣本標準差。
STRING_AGG	將TEXT類型運算式中的非空值使用指定分隔字元串聯成字串。
UNIQ	用於計算某一列去重後的行數。
VARIANCE	計算INT、NUMERIC類型運算式的樣本方差。
VAR_POP	計算FLOAT8、INT或NUMERIC類型運算式的總體方差。
VAR_SAMP	計算INT、FLOAT8或NUMERIC類型運算式的樣本方差。

樣本資料

-- 建立表
CREATE TABLE example_table(
    c1 INT,           
    c2 BOOLEAN,      
    c3 VARCHAR(10),  
    c4 DECIMAL(3, 1),
    c5 TEXT,
    c6 FLOAT8,
    c7 FLOAT8
);

-- 插入資料
INSERT INTO example_table (c1, c2, c3, c4, c5, c6, C7) VALUES
(1, true, 'a', 1.1, 3, 6, 7),
(2, false, 'b', 2.2, 4, 6, 2.6);

APPROX_COUNT_DISTINCT

描述：計算某一列去重後的行數，結果只能返回一個值，並且該值為近似值。
```
APPROX_COUNT_DISTINCT ( <column> )
```
參數說明
column：必填，需要近似計算去重後行數的列。
使用說明
APPROX_COUNT_DISTINCT函數採用HyperLogLog基數估計的方式進行非精確的COUNT DISTINCT計算。非精確的COUNT DISTINCT計算能提升查詢效能，尤其是對於column的離散值比較大的情況，誤差率平均可以控制在0.1%~1%以內，適用於對效能敏感並且可以接受誤差的情境。您可通過以下參數，調整誤差率。
```
SET hg_experimental_approx_count_distinct_precision = 20;
```
- 支援取值範圍為[12,20]，預設值為17。
- 精度參數含義為HyperLogLog演算法的分桶bit位個數，參數越大，代表分桶越多，理論精度越高。
- 精度參數取值越高，計算時間和記憶體開銷也會相應增大，但都遠遠小於精確的COUNT DISTINCT ( column )語句帶來的開銷，因此，推薦選用APPROX_COUNT_DISTINCT替換COUNT DISTINCT ( column )。
- 當精度參數設定為17以上時，Hologres採用HyperLogLog++演算法，會對傳回值做誤差修正，以進一步降低誤差、穩定誤差。
  例如：hg_experimental_approx_count_distinct_precision取值為20時，多數情況下，可以降低到0.01~0.2%不等的誤差率。
說明
您還可通過COUNT DISTINCT ( column )的方式進行精確的COUNT DISTINCT計算，使用時資源開銷會比較大。

樣本

以下樣本使用MaxCompute提供的公開資料集TPC-H的ORDERS表。您無需進行任何額外準備，只需運行以下SQL語句。

-- 建立外部表格
IMPORT FOREIGN SCHEMA public_data
LIMIT TO (ORDERS_10g)
FROM SERVER odps_server INTO public options (if_table_exist 'update');

-- 建立內部表
BEGIN;
CREATE TABLE ORDERS (
    O_ORDERKEY bigint NOT NULL PRIMARY KEY,
    O_CUSTKEY int NOT NULL,
    O_ORDERSTATUS text NOT NULL,
    O_TOTALPRICE DECIMAL(12, 2) NOT NULL,
    O_ORDERDATE timestamptz NOT NULL,
    O_ORDERPRIORITY text NOT NULL,
    O_CLERK text NOT NULL,
    O_SHIPPRIORITY int NOT NULL,
    O_COMMENT text NOT NULL
);

CALL set_table_property ('ORDERS', 'segment_key', 'O_ORDERDATE');
CALL set_table_property ('ORDERS', 'distribution_key', 'O_ORDERKEY');
CALL set_table_property ('ORDERS', 'bitmap_columns', 'O_ORDERKEY,O_CUSTKEY,O_ORDERSTATUS,O_ORDERPRIORITY,O_CLERK,O_SHIPPRIORITY,O_COMMENT');
CALL set_table_property ('ORDERS', 'dictionary_encoding_columns', 'O_ORDERSTATUS,O_ORDERPRIORITY,O_CLERK,O_COMMENT');

COMMENT ON COLUMN ORDERS.O_ORDERKEY IS '訂單編號';
COMMENT ON COLUMN ORDERS.O_CUSTKEY IS '顧客序號';
COMMENT ON COLUMN ORDERS.O_ORDERSTATUS IS '訂單狀態';
COMMENT ON COLUMN ORDERS.O_TOTALPRICE IS '總價';
COMMENT ON COLUMN ORDERS.O_ORDERDATE IS '下單日期';
COMMENT ON COLUMN ORDERS.O_ORDERPRIORITY IS '訂單優先順序';
COMMENT ON COLUMN ORDERS.O_CLERK IS '收銀員';
COMMENT ON COLUMN ORDERS.O_SHIPPRIORITY IS '發貨優先順序';
COMMENT ON COLUMN ORDERS.O_COMMENT IS '備忘';

COMMIT;

-- 資料匯入內表
INSERT INTO ORDERS SELECT * FROM ORDERS_10g;

計算O_CUSTKEY列去重後行數的近似值。

SELECT APPROX_COUNT_DISTINCT ( O_CUSTKEY ) FROM ORDERS;

返回結果如下。

approx_count_distinct
-----------------------
               1000422

全域設定精度為20，計算O_CUSTKEY列去重後行數的近似值。

ALTER DATABASE dbname SET hg_experimental_approx_count_distinct_precision = 20;
SELECT APPROX_COUNT_DISTINCT ( O_CUSTKEY ) FROM ORDERS;

返回結果如下。

approx_count_distinct
-----------------------
               1000422

Session層級設定精度為20，計算O_CUSTKEY列去重後行數的近似值。

--在Session層級設定精度20
SET hg_experimental_approx_count_distinct_precision = 20;
SELECT APPROX_COUNT_DISTINCT ( O_CUSTKEY ) FROM ORDERS;

返回結果如下。

 approx_count_distinct
-----------------------
                998854

APPROX_PERCENTILE

說明

Hologres 從 3.1 版本開始支援 APPROX_PERCENTILE。

描述：計算近似數值列的百分位值，結果返回一個值，並且該值為近似值。
```
APPROX_PERCENTILE (fraction) WITHIN GROUP (ORDER BY sort_expression)
```
參數說明
- fraction：介於 0 到 1 之間的常量（如 0.5 表示中位元）。
- sort_expression：要計算百分位的列，必須可排序。
使用說明
APPROX_PERCENTILE函數採用蓄水池採樣演算法，最多采8192個元素，然後對這些樣本計算百分位。

樣本

計算O_CUSTKEY列去重後行數的近似值，樣本語句如下。

SELECT
  APPROX_PERCENTILE(0.25) WITHIN GROUP (ORDER BY salary) AS q1,
  APPROX_PERCENTILE(0.5)  WITHIN GROUP (ORDER BY salary) AS median,
  APPROX_PERCENTILE(0.75) WITHIN GROUP (ORDER BY salary) AS q3
FROM employees;

ARRAY_AGG

描述：將運算式的值串聯到數組中。
```
ARRAY_AGG(expression)
```
參數說明
expression：必填，除JSON、JSONB、TIMETZ、INTERVAL、INET、OID、UUID資料類型和數群組類型之外的，其他格式的運算式。
傳回值說明
返回ARRAY類型。

樣本

SELECT ARRAY_AGG(c1) FROM example_table;

返回結果如下。

 array_agg
-----------
 {2,1}

AVG

描述：計算BIGINT、FLOAT8、FLOAT4或INT類型運算式中非空值的平均值。
```
AVG(expression)
```
參數說明
expression：必填，BIGINT、FLOAT8、FLOAT4或INT類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT AVG(c7) FROM example_table;

返回結果如下。

   avg
----------
 1.500000

BIT_AND

描述：在BIGINT或INT類型的運算式中，對非空值進行按位與運算。
```
BIT_AND(expression)
```
參數說明
expression：必填，BIGINT或INT類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT BIT_AND(c1) FROM example_table;

返回結果如下。

 bit_and
---------
       0

BIT_OR

描述：對BIGINT或INT類型運算式中的非空值進行按位或運算。
```
BIT_OR(expression)
```
參數說明
expression：必填，BIGINT或INT類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT BIT_OR(c1) FROM example_table;

返回結果如下。

 bit_or
--------
      3

BOOL_AND

描述：計算BOOLEAN類型運算式中值是否均為TRUE。
```
BOOL_AND(bool)
```
參數說明
bool：必填，BOOLEAN類型運算式。
傳回值說明
返回BOOLEAN類型，若運算式中值均為TRUE，則返回TRUE（t），否則返回FALSE（f）。

樣本

SELECT BOOL_AND(c2) FROM example_table;

返回結果如下。

 bool_and
----------
 f

BOOL_OR

描述：計算BOOLEAN類型運算式中值是否包含TRUE。
```
BOOL_OR(bool)
```
參數說明
bool：必填，BOOLEAN類型運算式。
傳回值說明
返回BOOLEAN類型，若運算式中值包含TRUE，則返回TRUE（t），否則返回FALSE（f）。

樣本

SELECT BOOL_OR(c2) FROM example_table;

返回結果如下。

 bool_or
---------
 t

CORR

描述：計算兩個變數之間的相關係數。
```
CORR(Y, X)
```
說明
參數類型僅支援DOUBLE PRECISION、FLOAT或FLOAT8類型。
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT CORR(c6, c7) FROM example_table;

返回結果如下。

 corr
------

COUNT

描述：擷取指定表的行數或BIGINT、NUMERIC類型運算式的輸入行數。
- 擷取指定表的行數
```
COUNT(*)
```
- 擷取BIGINT、NUMERIC類型運算式的輸入行數
```
COUNT(expression)
```
  參數說明：必填，BIGINT、NUMERIC類型的運算式值不為NULL。
傳回值說明
返回BIGINT類型。

樣本

SELECT COUNT(*) FROM example_table;

返回結果如下。

 count
-------
     2

COVAR_POP

描述：計算總體共變數。
```
COVAR_POP(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT COVAR_POP(c6, c7) FROM example_table;

返回結果如下。

      covar_pop
---------------------
 3.5527136788005e-15

COVAR_SAMP

描述：計算樣本共變數。
```
COVAR_SAMP(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT COVAR_SAMP(c6, c7) FROM example_table;

返回結果如下。

     covar_samp
--------------------
 7.105427357601e-15

EVERY

描述：判斷BOOLEAN運算式的值是否均為TRUE。
```
EVERY(bool)
```
參數說明
bool：必填，BOOLEAN類型運算式。
傳回值說明
返回BOOLEAN類型，若運算式的值均為TRUE，則返回TRUE（t），否則返回FALSE（f）。

樣本

SELECT EVERY(c2) FROM example_table;

返回結果

 every
-------
 f

MAX

描述：擷取BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式的最大值。
```
MAX(expression)
```
參數說明
expression：必填，BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT MAX(c1) FROM example_table;

返回結果如下。

 max
-----
   2

MAX_BY

描述：用於比較某一列（y列）的最大值，並擷取y列最大值對應其他指定列（x列）的值。
```
MAX_BY(x, y);
```
說明
數字類型按數字大小進行比較，非數字類型按照字典排序進行比較。
參數說明
- y：必填，需要擷取最大值的列名稱。若y列存在NULL值，則該列將不參與計算。
- x：必填，y列最大值時，需擷取其他列值的列名稱。
使用說明
僅Hologres V1.3.36及以上版本的執行個體支援使用MAX_BY函數。
說明
若執行個體低於該版本，請您通過加入即時數倉Hologres交流群申請升級執行個體，詳情請參見如何擷取更多的線上支援？
傳回值說明
- 當y列取值為最大值時，返回對應x列的值。
- 當y列所有值均為NULL時，函數傳回值為NULL。
- 當MAX_BY函數中y列的最大值存在多個時，則返回對應的多個x值中的最大值。

樣本

--樣本資料
DROP TABLE IF EXISTS test;
CREATE TABLE IF NOT EXISTS test (
    id INT,
    name TEXT,
    cost INT
);
INSERT INTO test
    VALUES (1, 'a', 100), (1, 'aa', 200), (1, 'aaa', 300), (2, 'b', 150), (2, 'bb', 300), (3, 'c', 150), (3, 'cc', 50);

查詢cost列最大值（存在多個）對應name列的值。

SELECT max_by(name, cost) FROM test;

返回結果如下。

 max_by
--------
 aaa

MIN

描述：擷取BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式的最小值。
```
MIN(expression)
```
參數說明
expression：必填，BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型。
傳回值類型
與參數類型一致。

樣本

SELECT MIN(c1) FROM example_table;

返回結果如下。

 min
-----
   1

MIN_BY

描述：用於比較某一列（y列）的最小值，並擷取y列最小值對應其他指定列（x列）的值。
```
MIN_BY(x, y);
```
說明
數字類型按數字大小進行比較，非數字類型按照字典排序進行比較。
參數說明
- y：必填，需要擷取最小值的列名稱。若y列存在NULL值，則該列將不參與計算。
- x：必填，y列最小值時，需擷取其他列值的列名稱。
使用說明
僅Hologres V1.3.36及以上版本的執行個體支援使用MAX_BY與MIN_BY函數。
說明
若執行個體低於該版本，請您通過加入即時數倉Hologres交流群申請升級執行個體，詳情請參見如何擷取更多的線上支援？
傳回值說明
- 當y列取值為最小值時，返回對應x列的值。
- 當y列所有值均為NULL時，函數傳回值為NULL。
- 當MIN_BY函數中y列的最小值存在多個時，則返回對應的多個x值中的最小值。

樣本

--樣本資料
DROP TABLE IF EXISTS test;
CREATE TABLE IF NOT EXISTS test (
    id INT,
    name TEXT,
    cost INT
);
INSERT INTO test
    VALUES (1, 'a', 100), (1, 'aa', 200), (1, 'aaa', 300), (2, 'b', 150), (2, 'bb', 300), (3, 'c', 150), (3, 'cc', 50);

查詢cost列最小值對應的name列的值。

SELECT MIN_BY(name, cost) FROM test;

返回結果如下。

min_by
--------
 cc
(1 row)

REGR_AVGX

描述：計算自變數（X）的平均值。
```
REGR_AVGX(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_AVGX(c6, c7) FROM example_table;

返回結果如下。

 regr_avgx
-----------
       4.8

REGR_AVGY

描述：計算因變數（Y）的平均值。
```
REGR_AVGY(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_AVGY(c6, c7) FROM example_table;

返回結果如下。

 regr_avgy
-----------
         6

REGR_COUNT

描述：計算輸入參數中都不為空白的行數。
```
REGR_COUNT(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
返回BIGINT類型。

樣本

SELECT REGR_COUNT(c6, c7) FROM example_table;

返回結果如下。

 regr_count
------------
          2

REGR_R2

描述：計算相關係數的平方。
```
REGR_R2(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_R2(c6, c7) FROM example_table;

返回結果如下。

 regr_r2
---------
       1

REGR_INTERCEPT

描述：計算由(Y, X)確定的最小方差擬合的縱軸截距。
```
REGR_INTERCEPT(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_INTERCEPT(c6, c7) FROM example_table;

返回結果如下。

 regr_intercept
----------------
              6

REGR_SLOPE

描述：計算最小方差擬合的斜率。
```
REGR_SLOPE(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_SLOPE(c6, c7) FROM example_table;

返回結果如下。

      regr_slope
----------------------
 7.34031751818285e-16

REGR_SXX

描述：計算自變數（X）的平方和，即sum(X^2) - sum(X)^2/N。
```
REGR_SXX(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_SXX(c6, c7) FROM example_table;

返回結果如下。

 regr_sxx
----------
     9.68

REGR_SXY

描述：計算自變數（X）和因變數（Y）的乘積和，即sum(X*Y) - sum(X) * sum(Y)/N。
```
REGR_SXY(Y, X)
```
參數說明
Y和X：必填，DOUBLE PRECISION、FLOAT或FLOAT8類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT REGR_SXY(c6, c7) FROM example_table;

返回結果如下。

      regr_sxy
--------------------
 7.105427357601e-15

SUM

描述：擷取BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式所有值的總和。
```
SUM(expression)
```
參數說明
expression：必填，BIGINT、FLOAT8、FLOAT4、INT或NUMERIC類型運算式。
傳回值說明
與參數類型一致。

樣本

SELECT SUM(c1) FROM example_table;

返回結果如下。

 sum
-----
   3

STDDEV

描述：計算INT、NUMERIC或FLOAT8類型運算式的樣本標準差。
```
STDDEV(expression)
```
參數說明
expression：必填，INT、NUMERIC或FLOAT8類型運算式。
傳回值說明
返回NUMERIC或FLOAT8類型。

樣本

SELECT STDDEV(c1) FROM example_table;

返回結果如下。

    stddev
--------------
 0.7071067811

STDDEV_POP

描述：計算INT、NUMERIC或FLOAT8類型運算式的總體標準差。
```
STDDEV_POP(expression)	
```
參數說明
expression：必填，INT、NUMERIC或FLOAT8類型運算式。
傳回值說明
返回NUMERIC或FLOAT8類型。

樣本

SELECT STDDEV_POP(c1) FROM example_table;

返回結果如下。

  stddev_pop
--------------
 0.5000000000

STDDEV_SAMP

描述：計算INT、NUMERIC、FLOAT8類型運算式的樣本標準差。
```
STDDEV_SAMP(expression)	
```
參數說明
expression：必填，INT、NUMERIC、FLOAT8類型運算式。
傳回值說明
返回NUMERIC或FLOAT8類型。

樣本

SELECT STDDEV_SAMP(c1) FROM example_table;

返回結果如下。

 stddev_samp
--------------
 0.7071067812

STRING_AGG

描述：將TEXT類型運算式中的非空值使用指定分隔字元串聯成字串。
```
STRING_AGG(<expression> TEXT, <delimiter> TEXT)
```
參數說明
- expression：必填，原始字串。
- delimiter：必填，分隔字元。
傳回值說明
返回TEXT類型。

樣本

SELECT STRING_AGG(c5, '-') FROM example_table;

返回結果如下。

 string_agg
------------
 3-4

UNIQ

描述：用於計算某一列去重後的行數。
```
UNIQ ( < column > );
```
參數說明
column：必填，需要計算去重後行數的列。支援SMALLINT、INTEGER、BIGINT、REAL、DOUBLE PRECISION、TEXT、VARCHAR、TIMESTAMP、TIMESTAMPTZ、DATE、TIMETZ、UUID類型。
使用說明
- 僅Hologres V1.3及以上版本支援使用UNIQ函數。
  說明
  如果您的執行個體是V1.3以下版本，請您使用常見升級準備失敗報錯或加入HologresDingTalk交流群反饋，詳情請參見如何擷取更多的線上支援？。
- SQL中必須包含GROUP BY，且GROUP BY的欄位比較均勻（不傾斜），UNIQ才能發揮比COUNT DISTINCT更好的效能。
- 正常情況下，UNIQ在GROUP BY KEY的KEY基數較高時，比COUNT DISTINCT效能更好，同時UNIQ比COUNT DISTINCT更節省記憶體，如果使用COUNT DISTINCT遇到記憶體超限時，可以換用UNIQ。
- 從Hologres V2.1版本開始，Hologres針對COUNT DISTINCT情境做了非常多的效能最佳化（包括單個COUNT DISTINCT、多個COUNT DISTINCT、資料扭曲、SQL沒有GROUP BY欄位等情境），無需再手動改寫成UNIQ實現，即可實現更好的效能。詳情請參見Count Distinct最佳化。

樣本

以下樣本使用MaxCompute提供的公開資料集TPC-H的ORDERS表。您無需進行任何額外準備，只需運行以下SQL語句。

-- 建立外部表格
IMPORT FOREIGN SCHEMA public_data
LIMIT TO (ORDERS_10g)
FROM SERVER odps_server INTO public options (if_table_exist 'update');

-- 建立內部表
BEGIN;
CREATE TABLE ORDERS (
    O_ORDERKEY bigint NOT NULL PRIMARY KEY,
    O_CUSTKEY int NOT NULL,
    O_ORDERSTATUS text NOT NULL,
    O_TOTALPRICE DECIMAL(12, 2) NOT NULL,
    O_ORDERDATE timestamptz NOT NULL,
    O_ORDERPRIORITY text NOT NULL,
    O_CLERK text NOT NULL,
    O_SHIPPRIORITY int NOT NULL,
    O_COMMENT text NOT NULL
);

CALL set_table_property ('ORDERS', 'segment_key', 'O_ORDERDATE');
CALL set_table_property ('ORDERS', 'distribution_key', 'O_ORDERKEY');
CALL set_table_property ('ORDERS', 'bitmap_columns', 'O_ORDERKEY,O_CUSTKEY,O_ORDERSTATUS,O_ORDERPRIORITY,O_CLERK,O_SHIPPRIORITY,O_COMMENT');
CALL set_table_property ('ORDERS', 'dictionary_encoding_columns', 'O_ORDERSTATUS,O_ORDERPRIORITY,O_CLERK,O_COMMENT');

COMMENT ON COLUMN ORDERS.O_ORDERKEY IS '訂單編號';
COMMENT ON COLUMN ORDERS.O_CUSTKEY IS '顧客序號';
COMMENT ON COLUMN ORDERS.O_ORDERSTATUS IS '訂單狀態';
COMMENT ON COLUMN ORDERS.O_TOTALPRICE IS '總價';
COMMENT ON COLUMN ORDERS.O_ORDERDATE IS '下單日期';
COMMENT ON COLUMN ORDERS.O_ORDERPRIORITY IS '訂單優先順序';
COMMENT ON COLUMN ORDERS.O_CLERK IS '收銀員';
COMMENT ON COLUMN ORDERS.O_SHIPPRIORITY IS '發貨優先順序';
COMMENT ON COLUMN ORDERS.O_COMMENT IS '備忘';

COMMIT;

-- 資料匯入內表
INSERT INTO ORDERS SELECT * FROM ORDERS_10g;

計算ORDERS表的O_CUSTKEY列去重後行數。
```
SELECT UNIQ ( O_CUSTKEY ) FROM ORDERS;
```
返回結果如下。
```
  uniq
--------
 999982
```

計算ORDERS表的O_CUSTKEY列，不同O_ORDERSTATUS下O_CUSTKEY去重後行數。

SELECT O_ORDERSTATUS, UNIQ ( O_CUSTKEY ) FROM ORDERS GROUP BY O_ORDERSTATUS;

返回結果如下。

 o_orderstatus |  uniq
---------------+--------
 P             | 313478
 F             | 996258
 O             | 996400

VARIANCE

描述：計算INT、NUMERIC類型運算式的樣本方差。
```
VARIANCE(expression)
```
參數說明
expression：必填，INT、NUMERIC類型運算式。
傳回值說明
返回NUMERIC類型。

樣本

SELECT VARIANCE(c1) FROM example_table;

返回結果如下。

   variance
--------------
 0.5000000000

VAR_POP

描述：計算FLOAT8、INT或NUMERIC類型運算式的總體方差。
```
VAR_POP(expression)
```
參數說明
expression：必填，FLOAT8、INT或NUMERIC類型運算式。
傳回值說明
返回NUMERIC或FLOAT8類型。

樣本

SELECT VAR_POP(c1) FROM example_table;

返回結果如下。

   var_pop
--------------
 0.2500000000

VAR_SAMP

描述：計算INT、FLOAT8或NUMERIC類型運算式的樣本方差。
```
VAR_SAMP(expression)
```
參數說明
expression：必填，INT、FLOAT8或NUMERIC類型運算式。
傳回值說明
返回NUMERIC或FLOAT8類型。

樣本

SELECT VAR_SAMP(c1) FROM example_table;

返回結果如下。

   var_samp
--------------
 0.5000000000