全部產品
Search
文件中心

MaxCompute:ALTER TABLE

更新時間:Jun 19, 2024

修改表操作。

修改表的所有人

修改表的所有人,即表Owner。

  • 命令格式

    alter table <table_name> changeowner to <new_owner>;
  • 參數說明

    • table_name:必填。待修改Owner的表名。

    • new_owner:必填。修改後的Owner帳號。

  • 使用樣本

    --將表test1的所有人修改為ALIYUN$xxx@aliyun.com。
    alter table test1 changeowner to 'ALIYUN$xxx@aliyun.com';

修改表的注釋

修改表的注釋內容。

  • 命令格式

    alter table <table_name> set comment '<new_comment>';
  • 參數說明

    • table_name:必填。待修改注釋的表的名稱。

    • new_comment:必填。修改後的注釋名稱。

  • 使用樣本

    alter table sale_detail set comment 'new coments for table sale_detail';

    您可以通過MaxCompute的desc table_name命令查看錶中comment的修改結果。

修改表的修改時間

MaxCompute SQL提供touch操作用來修改表的LastModifiedTime,可將表的LastModifiedTime修改為目前時間。此操作會改變表的LastModifiedTime的值,MaxCompute會認為表的資料有變動,生命週期的計算會重新開始。

  • 命令格式

    alter table <table_name> touch;
  • 參數說明

    table_name:必填。待修改表的修改時間的表名稱。

  • 使用樣本

    alter table sale_detail touch;

修改表的聚簇屬性

對於分區表,MaxCompute支援通過alter table語句增加或者去除聚簇屬性。

  • 命令格式

    • 增加表的Hash聚簇屬性的文法格式如下:

      alter table <table_name> [clustered by (<col_name> [, <col_name>, ...]) [sorted by (<col_name> [asc | desc] [, <col_name> [asc | desc] ...])] into <number_of_buckets> buckets];
    • 去除表的Hash聚簇屬性的文法格式如下:

      alter table <table_name> not clustered;
    • 增加表的Range聚簇屬性,Bucket數不是必須的,可以省略,此時系統會根據資料量自動決定最佳的Bucket數目。文法格式如下:

      alter table <table_name> [range clustered by (<col_name> [, <col_name>, ...]) [sorted by (<col_name> [asc | desc] [, <col_name> [asc | desc] ...])] into <number_of_buckets> buckets];
    • 去除表或分區的Range聚簇屬性的文法格式如下:

      alter table <table_name> not clustered;
      alter table <table_name> partition [<pt_spec>] not clustered;
      說明
      • 通過alter table改變聚簇屬性,只對分區表有效,非分區表一旦建立聚簇屬性就無法改變alter table語句適用於存量表,在增加了新的聚簇屬性後,新的分區將按設定的聚簇屬性儲存區。

      • alter table只會影響分區表的建立分區(包括insert overwrite產生的),新分區將按新的聚簇屬性儲存區,老資料分區的聚簇屬性和儲存保持不變。即在一張曾經做過聚簇屬性設定的表上,關閉了聚簇屬性,再增加聚簇設定,可以在新分區設定不同於之前的聚簇列、排序列及分桶數。

      • 由於alter table隻影響新分區,所以該語句不可以再指定分區。

  • 參數說明

    詳情請參見CREATE TABLE

  • 使用樣本

    -- 建立一個分區表
    create table if not exists sale_detail(
     shop_name     STRING,
     customer_id   STRING,
     total_price   DOUBLE)
    partitioned by (sale_date STRING, region STRING);
    
    -- 修改表格的cluster屬性
    alter table sale_detail clustered by (customer_id) sorted by (customer_id) into 10 buckets;

    更多關於cluster屬性的介紹請參見Hash ClusteringRange Clustering

重新命名表

重新命名表的名稱。僅修改表的名字,不改動表中的資料。

  • 命令格式

    alter table <table_name> rename to <new_table_name>;
  • 參數說明

    • table_name:必填。待修改名稱的表。

    • new_table_name:必填。修改後的表名稱。如果已存在與new_table_name同名的表,會返回報錯。

  • 使用樣本

    alter table sale_detail rename to sale_detail_rename;

修改表的生命週期

修改已存在的分區表或非分區表的生命週期。

  • 命令格式

    alter table <table_name> set lifecycle <days>;
  • 參數說明

    • table_name:必填。需要修改生命週期的表名。

    • days:必填。修改後的生命週期時間,只能為正整數,單位為天。

  • 使用樣本

    --修改test_lifecycle表,將生命週期設為50天。
    alter table test_lifecycle set lifecycle 50;

禁止或恢複生命週期

禁止或恢複指定表或分區的生命週期。

  • 命令格式

    alter table <table_name> partition [<pt_spec>] {enable|disable} lifecycle;
  • 參數說明

    • table_name:必填。待禁止或恢複生命週期的表的名稱。

    • pt_spec:可選。待禁止或恢複生命週期的表的分區資訊。格式為partition_col1=col1_value1, partition_col2=col2_value1...。對於有多級分區的表,必須指明全部的分區值。

    • enable:恢複表或指定分區的生命週期功能。

      • 表及其分區重新參與生命週期回收,預設使用當前表及分區上的生命週期配置。

      • 開啟表生命週期前可以修改表及分區的生命週期配置,防止開啟表生命週期後因使用之前的配置導致資料被誤回收。

    • disable:禁止表或指定分區的生命週期功能。

      • 禁止表本身及其所有分區被生命週期回收,優先順序高於恢複表分區生命週期。即當使用table disable lifecycle時,pt_spec enable lifecycle設定無效。

      • 禁止表的生命週期功能後,表的生命週期配置及其分區的enabledisable標記會被保留。

      • 禁止表的生命週期功能後,仍然可以修改表及分區的生命週期配置。

  • 使用樣本

    • 樣本1:禁止表trans的生命週期功能。

      alter table trans disable lifecycle;
    • 樣本2:禁止表trans中時間為20141111分區的生命週期功能。

      alter table trans partition (dt='20141111') disable lifecycle;

添加分區

為已存在的分區表新增分區。

  • 限制條件

    • MaxCompute單表支援的分區數量上限為6萬個。

    • 對於有多級分區的表,如果需要添加新的分區值,必須指明全部的分區。

    • 僅支援新增分區值,不支援新增分區欄位。

  • 命令格式

    alter table <table_name> add [if not exists] partition <pt_spec> [partition <pt_spec> partition <pt_spec>...];
  • 參數說明

    • table_name:必填。待新增分區的分區表名稱。

    • if not exists:可選。如果未指定if not exists而同名的分區已存在,會執行失敗並返回報錯。

    • pt_spec:必填。新增的分區,格式為(partition_col1 = partition_col_value1, partition_col2 = partition_col_value2, ...)partition_col是分區欄位,partition_col_value是分區值。分區欄位不區分大小寫,分區值區分大小寫。

  • 使用樣本

    • 樣本1:給表sale_detail添加一個分區,用來儲存2013年12月杭州地區的銷售記錄。

      alter table sale_detail add if not exists partition (sale_date='201312', region='hangzhou');
    • 樣本2:給表sale_detail同時添加兩個分區,用來儲存2013年12月北京和上海地區的銷售記錄。

      alter table sale_detail add if not exists partition (sale_date='201312', region='beijing') partition (sale_date='201312', region='shanghai');
    • 樣本3:給表sale_detail添加分區,僅指定一個分區欄位sale_date,返回報錯,需要同時指定2個分區欄位sale_date和region。

      alter table sale_detail add if not exists partition (sale_date='20111011');

刪除分區

為已存在的分區表刪除分區。

MaxCompute支援通過條件式篩選方式刪除分區。如果您希望一次性刪除符合某個規則條件的多個分區,可以使用運算式指定篩選條件,通過篩選條件匹配分區並大量刪除分區。

  • 限制條件

    • 每個分區過濾子句只能訪問一個分區列。

    • 運算式用到的函數必須是內建的Scalar函數。

  • 注意事項

    • 刪除分區之後,MaxCompute專案的儲存量會降低。

    • 您可以結合MaxCompute提供的生命週期功能,實現自動回收舊分區的能力。更多生命週期資訊,請參見生命週期

  • 命令格式

    • 未指定篩選條件

      --一次刪除一個分區。
      alter table <table_name> drop [if exists] partition <pt_spec>;
      --一次刪除多個分區。
      alter table <table_name> drop [if exists] partition <pt_spec>,partition <pt_spec>[,partition <pt_spec>....];
    • 指定篩選條件

      alter table <table_name> drop [if exists] partition <partition_filtercondition>;
  • 參數說明

    • table_name:必填。待刪除分區的分區表名稱。

    • if exists:可選。如果未指定if exists且分區不存在,則返回報錯。

    • pt_spec:必填。刪除的分區。格式為(partition_col1 = partition_col_value1, partition_col2 = partition_col_value2, ...)partition_col是分區欄位,partition_col_value是分區值。分區欄位不區分大小寫,分區值區分大小寫。

    • partition_filtercondition:指定篩選條件時必填。分區篩選條件,不區分大小寫。格式為:

      partition_filtercondition
          : partition (<partition_col> <relational_operators> <partition_col_value>)
          | partition (scalar(<partition_col>) <relational_operators> <partition_col_value>)
          | partition (<partition_filtercondition1> AND|OR <partition_filtercondition2>)
          | partition (NOT <partition_filtercondition>)
          | partition (<partition_filtercondition1>)[,partition (<partition_filtercondition2>), ...]
      • partition_col:分區名稱。

      • relational_operators:關係運算子,詳情請參見運算子

      • partition_col_value:分區列比較值或Regex,與分區列資料類型保持一致。

      • scalar():Scalar函數。Scalar函數基於輸入值產生對應的標量,對分區列的值(partition_col)進行處理後再按照指定的關係運算子relational_operatorspartition_col_value做比較。

      • 分區過濾條件支援邏輯運算子NOT、AND和OR。支援通過NOT過濾條件子句,取過濾規則的補集。支援多個過濾條件子句以AND或OR的關係組成整體分區匹配規則。

      • 支援多個分區過濾子句,當多個分區過濾子句以英文逗號(,)分隔時,每個過濾子句的邏輯以OR的關係組成整體分區匹配規則。

  • 使用樣本

    • 未指定篩選條件

      --從表sale_detail中刪除一個分區,2013年12月杭州分區的銷售記錄。
      alter table sale_detail drop if exists partition(sale_date='201312',region='hangzhou'); 
      --從表sale_detail中同時刪除兩個分區,2013年12月杭州和上海分區的銷售記錄。
      alter table sale_detail drop if exists partition(sale_date='201312',region='hangzhou'),partition(sale_date='201312',region='shanghai');
    • 指定篩選條件

      --建立分區表。
      create table if not exists sale_detail(
      shop_name     STRING,
      customer_id   STRING,
      total_price   DOUBLE)
      partitioned by (sale_date STRING);
      --添加分區。
      alter table sale_detail add if not exists
      partition (sale_date= '201910')
      partition (sale_date= '201911')
      partition (sale_date= '201912')
      partition (sale_date= '202001')
      partition (sale_date= '202002')
      partition (sale_date= '202003')
      partition (sale_date= '202004')
      partition (sale_date= '202005')
      partition (sale_date= '202006')
      partition (sale_date= '202007');
      --大量刪除分區。
      alter table sale_detail drop if exists partition(sale_date < '201911');
      alter table sale_detail drop if exists partition(sale_date >= '202007');
      alter table sale_detail drop if exists partition(sale_date LIKE '20191%');
      alter table sale_detail drop if exists partition(sale_date IN ('202002','202004','202006'));
      alter table sale_detail drop if exists partition(sale_date BETWEEN '202001' AND '202007');
      alter table sale_detail drop if exists partition(substr(sale_date, 1, 4) = '2020');
      alter table sale_detail drop if exists partition(sale_date < '201912' OR sale_date >= '202006');
      alter table sale_detail drop if exists partition(sale_date > '201912' AND sale_date <= '202004');
      alter table sale_detail drop if exists partition(NOT sale_date > '202004');
      --支援多個分區過濾運算式,運算式之間是OR的關係。
      alter table sale_detail drop if exists partition(sale_date < '201911'), partition(sale_date >= '202007');
      --添加其他格式分區。
      alter table sale_detail add IF NOT EXISTS
      partition (sale_date= '2019-10-05') 
      partition (sale_date= '2019-10-06') 
      partition (sale_date= '2019-10-07');
      --大量刪除分區,使用Regex匹配分區。
      alter table sale_detail drop if exists partition(sale_date RLIKE '2019-\\d+-\\d+');
      --建立多級分區表。
      create table if not exists region_sale_detail(
      shop_name     STRING,
      customer_id   STRING,
      total_price   DOUBLE)
      partitioned by (sale_date STRING , region STRING );
      --添加分區。
      alter table region_sale_detail add IF NOT EXISTS
      partition (sale_date= '201910',region = 'shanghai')
      partition (sale_date= '201911',region = 'shanghai')
      partition (sale_date= '201912',region = 'shanghai')
      partition (sale_date= '202001',region = 'shanghai')
      partition (sale_date= '202002',region = 'shanghai')
      partition (sale_date= '201910',region = 'beijing')
      partition (sale_date= '201911',region = 'beijing')
      partition (sale_date= '201912',region = 'beijing')
      partition (sale_date= '202001',region = 'beijing')
      partition (sale_date= '202002',region = 'beijing');
      --執行如下語句大量刪除多級分區,兩個匹配條件是或的關係,會將sale_date小於201911或region等於beijing的分區都刪除掉。
      alter table region_sale_detail drop if exists partition(sale_date < '201911'),partition(region = 'beijing');
      --如果刪除sale_date小於201911且region等於beijing的分區,可以使用如下方法。
      alter table region_sale_detail drop if exists partition(sale_date < '201911', region = 'beijing');

      大量刪除多級分區時,在一個partition過濾子句中,不能根據多個分區列編寫組合條件匹配分區,如下語句會報錯FAILED: ODPS-0130071:[1,82] Semantic analysis exception - invalid column reference region, partition expression must have one and only one column reference

      --分區過濾子句只能訪問一個分區列,如下語句報錯。
      alter table region_sale_detail drop if exists partition(sale_date < '201911' AND region = 'beijing');

修改分區的更新時間

MaxCompute SQL提供touch操作,用於修改分區表中分區的LastModifiedTime。此操作會將LastModifiedTime修改為目前時間。此時,MaxCompute會認為資料有變動,重新計算生命週期。

  • 使用限制

    對於有多級分區的表,必須指明全部的分區。

  • 命令格式

    alter table <table_name> touch partition (<pt_spec>);
  • 參數說明

    • table_name:必填。待修改分區更新時間的分區表名稱。如果表不存在,則返回報錯。

    • pt_spec:必填。需要修改更新時間的分區資訊。格式為(partition_col1 = partition_col_value1, partition_col2 = partition_col_value2, ...)partition_col是分區欄位,partition_col_value是分區值。如果指定的分區欄位或分區值不存在,則返回報錯。

  • 使用樣本

    --修改表sale_detail的分區sale_date='201312', region='shanghai'的LastModifiedTime。
    alter table sale_detail touch partition (sale_date='201312', region='shanghai');

修改分區值

MaxCompute SQL支援通過rename操作更改分區表的分區值。

  • 使用限制

    • 不支援修改分區列的列名,只能修改分區列對應的值。

    • 對於有多級分區的表,必須指明全部的分區。

  • 命令格式

    alter table <table_name> partition (<pt_spec>) rename to partition (<new_pt_spec>);
  • 參數說明

    • table_name:必填。待修改分區值的表名稱。

    • pt_spec:必填。需要修改分區值的分區資訊。格式為(partition_col1 = partition_col_value1, partition_col2 = partition_col_value2, ...)partition_col是分區欄位,partition_col_value是分區值。如果指定的分區欄位或分區值不存在,則返回報錯。

    • new_pt_spec:必填。修改後的分區資訊。格式為(partition_col1 = new_partition_col_value1, partition_col2 = new_partition_col_value2, ...)partition_col是分區欄位,new_partition_col_value是新分區值。

  • 使用樣本

    --修改表sale_detail的分區值。
    alter table sale_detail partition (sale_date = '201312', region = 'hangzhou') rename to partition (sale_date = '201310', region = 'beijing');

合并分區

MaxCompute SQL提供merge partition對分區表的分區進行合并,即將同一個分區表下的多個分區合并成一個分區,同時刪除被合并的分區維度資訊,把資料移動到指定分區。

  • 使用限制

    • 不支援外部表格,聚簇表合并後的分區會消除聚簇屬性。

    • 一次性合并分區數量限制為4000個。

  • 命令格式

    alter table <table_name> merge [if exists] partition (<predicate>) [, partition(<predicate2>) ...] overwrite partition (<fullpartitionSpec>) [purge];
  • 參數說明

    • table_name:必填。待合并分區的分區表名稱。

    • if exists:可選。如果未指定if exists,且分區不存在,會執行失敗並返回報錯。如果指定if exists後不存在滿足merge條件的分區,則不產生新分區。如果運行過程中出現來源資料被並發修改(包括insertrenamedrop)時,即使指定if exists也會報錯。

    • predicate:必填。篩選待合并分區需要滿足的條件。

    • fullpartitionSpec:必填。目標資料分割資訊。

    • purge:可選關鍵字。選擇該欄位,則會清理session目錄,預設清理3天內的日誌。詳情請參見Purge

  • 使用樣本

    • 樣本1:合并滿足指定條件的分區到目標資料分割。

      --查看分區表的分區。
      show partitions intpstringstringstring;
      
      ds=20181101/hh=00/mm=00
      ds=20181101/hh=00/mm=10
      ds=20181101/hh=10/mm=00
      ds=20181101/hh=10/mm=10
      
      --合并所有滿足hh='00'的分區到hh='00',mm='00'中。
      alter table intpstringstringstring merge partition(hh='00') overwrite partition(ds='20181101', hh='00', mm='00');
      
      --查看合并後的分區。
      show partitions intpstringstringstring;
      
      ds=20181101/hh=00/mm=00
      ds=20181101/hh=10/mm=00
      ds=20181101/hh=10/mm=10                    
    • 樣本2:合并指定的多個分區到目標資料分割。

      --合并多個指定分區。
      alter table intpstringstringstring merge if exists partition(ds='20181101', hh='00', mm='00'), partition(ds='20181101', hh='10', mm='00'),  partition(ds='20181101', hh='10', mm='10') overwrite partition(ds='20181101', hh='00', mm='00') purge;
      --查看分區表的分區。
      show partitions intpstringstringstring;
      
      ds=20181101/hh=00/mm=00

添加列或注釋

為已存在的非分區表或分區表添加列或注釋。

說明

MaxCompute已支援添加STRUCT類型的列,例如struct<x: string, y: bigint>map<string, struct<x: double, y: double>>

  • 命令格式

    alter table <table_name> add columns (<col_name1> <type1> comment ['<col_comment>'][, <col_name2> <type2> comment '<col_comment>'...]);
  • 參數說明

    • table_name:必填。待新增列的表名稱。添加的新列不支援指定順序,預設在最後一列。

    • col_name:必填。新增列的名稱。

    • type:必填。新增列的資料類型。

    • col_comment:可選。新增列的注釋。

  • 使用樣本

    • 樣本1:給表sale_detail添加兩個列。

      alter table sale_detail add columns (customer_name STRING, education BIGINT);
    • 樣本2:給表sale_detail添加兩個列並同時添加列注釋。

      alter table sale_detail add columns (customer_name STRING comment '客戶', education BIGINT comment '教育' );
    • 樣本3:給表sale_detail添加一個複雜資料類型列。

      alter table sale_detail add columns (region struct<province:string, area:string>);

刪除列

為已存在的非分區表或分區表刪除指定的單個或多個列。

說明

在下列情境中,如果執行了刪除列操作,會使表的讀寫行為發生變化:

  • 作業類型是MapReduce 1.0時,Graph任務無法讀寫修改的表。

  • CUPID作業只有Spark以下版本可以讀表,但是不可以寫表:

    • Spark-2.3.0-odps0.34.0

    • Spark-3.1.1-odps0.34.0

  • PAI作業可以讀表,但不可以寫表。

  • Hologres作業在1.3版本之前,Hologres引用修改的表作為外部表格時,無法讀寫該表。

  • 表做過刪除列操作後,不支援CLONE TABLE

此外,Streaming Tunnel在寫入表時,不可以修改表結構。

  • 命令格式

    alter table <table_name> drop columns <col_name1>[, <col_name2>...];
  • 參數說明

    • table_name:必填。待刪除列的表名稱。

    • col_name:必填。待刪除的列名稱。

  • 使用樣本

    --刪除表sale_detail的列customer_id。輸入yes確認後,即可刪除列。
    alter table sale_detail drop columns customer_id;
    --刪除表sale_detail的列shop_name和customer_id。輸入yes確認後,即可刪除列。
    alter table sale_detail drop columns shop_name, customer_id;

更改列資料類型

為已存在的列更改資料類型。

說明

在下列情境中,如果執行了更改列資料類型操作,會使表的讀寫行為發生變化:

  • 作業類型是MapReduce 1.0時,Graph任務無法讀寫修改的表。

  • CUPID作業只有Spark以下版本可以讀表,但是不可以寫表:

    • Spark-2.3.0-odps0.34.0

    • Spark-3.1.1-odps0.34.0

  • PAI作業可以讀表,但不可以寫表。

  • Hologres作業在1.3版本之前,Hologres引用修改的表作為外部表格時,無法讀寫該表。

  • 表做過更改列資料類型操作後,不支援CLONE TABLE

此外,Streaming Tunnel在寫入表時,不可以修改表結構。

  • 命令格式。

    alter table <table_name> change [column] <old_column_name> <new_column_name> <new_data_type>;
  • 參數說明。

    • table_name:必填。待修改列資料類型的表名稱。

    • old_column_name:必填。待修改列資料類型的列名稱。

    • new_column_name:必填。修改列資料類型後的列名稱。old_column_name可以與new_column_name保持一致,表示不修改列名稱。但是new_column_name不能與除old_column_name之外的列名稱相同。

    • new_data_type:必填。待修改的列修改後的資料類型。

  • 使用樣本。

    --將mf_evol_t3表的id欄位由int轉化為bigint
    alter table mf_evol_t3 change id id bigint;
    --將mf_evol_t3表的id欄位類型由bigint轉化為string
    alter table mf_evol_t3 change column id id string;
  • 資料類型支援轉換表。

    說明

    Y表示支援轉換;N表示不支援轉換;-表示不涉及;Y()表示滿足括弧內的條件支援轉換。

    資料類型支援轉換表

修改列的順序

為已存在的非分區表或分區表修改列順序。

說明

在下列情境中,如果執行了更改表的列順序、添加新列並修改列順序操作,會使表的讀寫行為發生變化:

  • 作業類型是MapReduce 1.0時,Graph任務無法讀寫修改的表。

  • CUPID作業只有Spark以下版本可以讀表,但是不可以寫表:

    • Spark-2.3.0-odps0.34.0

    • Spark-3.1.1-odps0.34.0

  • PAI作業可以讀表,但不可以寫表。

  • Hologres作業在1.3版本之前,Hologres引用修改的表作為外部表格時,無法讀寫該表。

  • 表做過更改表的列順序操作後,不支援CLONE TABLE

此外,Streaming Tunnel在寫入表時,不可以修改表結構。

  • 命令格式

    alter table <table_name> change <old_column_name> <new_column_name> <column_type> after <column_name>;
  • 參數說明

    • table_name:必填。待修改列順序的表名稱。

    • old_column_name:必填。待修改順序的列的原始名稱。

    • new_col_name:必填。修改後的列名稱。new_col_name可以與old_column_name保持一致,表示不修改列名稱。但new_col_name不能與除old_column_name的之外的列名稱相同。

    • column_type:必填。待修改的列的未經處理資料類型。不可修改。

    • column_name:必填。將待調整順序的列調整至column_name之後。

  • 使用樣本

    --修改表sale_detail的列customer_id為customer並位於total_price之後。
    alter table sale_detail change customer_id customer string after total_price;
    --修改表sale_detail的列customer_id位於total_price之後,不修改列名稱。
    alter table sale_detail change customer_id customer_id string after total_price;

修改列名

為已存在的非分區表或分區表修改列名稱。

  • 命令格式

    alter table <table_name> change column <old_col_name> rename to <new_col_name>;
  • 參數說明

    • table_name:必填。待修改列名的表名稱。

    • old_col_name:必填。待修改的列名稱。old_col_name必須是已存在的列。

    • new_col_name:必填。修改後的列名稱。表中不能有名為new_col_name的列。

  • 使用樣本

    --修改表sale_detail的列名customer_name為customer。
    alter table sale_detail change column customer_name rename to customer;

修改列注釋

為已存在的非分區表或分區表修改列注釋。

  • 文法格式

    alter table <table_name> change column <col_name> comment '<col_comment>';
  • 參數說明

    • table_name:必填。待修改列注釋的表名稱。

    • col_name:必填。待修改注釋的列名稱。col_name必須是已存在的列。

    • col_comment:必填。修改後的注釋資訊。注釋內容為長度不超過1024位元組的有效字串,否則報錯。

  • 使用樣本

    --修改表sale_detail的列customer的注釋。
    alter table sale_detail change column customer comment 'customer';

修改列名及注釋

修改非分區表或分區表的列名或注釋。

  • 命令格式

    alter table <table_name> change column <old_col_name> <new_col_name> <column_type> comment '<col_comment>';
  • 參數說明

    • table_name:必填。需要修改列名以及注釋的表名稱。

    • old_col_name:必填。需要修改的列名稱。old_col_name必須是已存在的列。

    • new_col_name:必填。新的列名稱。表中不能有名為new_col_name的列。

    • column_type:必填。列的資料類型。

    • col_comment:可選。修改後的注釋資訊。內容最長為1024位元組。

  • 使用樣本

    --修改表sale_detail的列名customer_name為customer_newname,注釋“客戶”為“customer”。
    alter table sale_detail change column customer_name customer_newname STRING comment 'customer';

修改表的列非空屬性

修改表的非分區列的非空屬性。即如果表的非分區列值禁止為NULL,您可以通過本命令修改分區列值允許為NULL。

您可以通過desc extended table_name;命令查看Nullable屬性值,判斷列的非空屬性。如果Nullabletrue,表示允許為NULL;如果Nullablefalse,表示禁止為NULL。

  • 使用限制

    修改分區列值允許為NULL後,不可回退,不支援再修改分區列值禁止為NULL,請謹慎操作。

  • 命令格式

    alter table <table_name> change column <old_col_name> null;
  • 參數說明

    • table_name:必填。待修改列非空屬性的表名稱。

    • old_col_name:必填。待修改的非分區列的名稱。old_col_name必須是已存在的非分區列。

  • 使用樣本

    --建立一張分區表,id列禁止為NULL。
    create table null_test(id int not null, name string) partitioned by (ds string);
    --修改id列允許為NULL。
    alter table null_test change column id null;

合并Transactional表檔案

Transactional表底層實體儲存體為不支援直接讀取的Base檔案和Delta檔案。對Transactional表執行updatedelete操作,不會修改Base檔案,只會追加Delta檔案,所以會出現更新或刪除次數越多,表實際佔用儲存越大的情況,多次累積的Delta檔案會產生較高的儲存和後續查詢費用。

對同一表或分區,執行多次updatedelete操作,會產生較多Delta檔案。系統讀資料時,需要載入這些Delta檔案來確定哪些行被更新或刪除,較多的Delta檔案會影響資料讀取效率。此時您可以將Base檔案和Delta合并,減少儲存以便提升資料讀取效率。

  • 命令格式

    alter table <table_name> [partition (<partition_key> = '<partition_value>' [, ...])] compact {minor|major};
  • 參數說明

    • table_name:必填。待合并檔案的Transactional表名稱。

    • partition_key:可選。當Transactional表為分區表時,指定分區列名。

    • partition_value:可選。當Transactional表為分區表時,指定分區列名對應的列值。

    • major|minor:至少選擇其中一個。二者的區別是:

      • minor:只將Base檔案及其下所有的Delta檔案合并,消除Delta檔案。

      • major:不僅將Base檔案及其下所有的Delta檔案合并,消除Delta檔案,還會把表對應的Base檔案中的小檔案進行合并。當Base檔案較小(小於32 MB)或有Delta檔案的情況下,等價於重新對錶執行insert overwrite操作,但當Base檔案足夠大(大於等於32 MB ),且不存在Delta檔案的情況下,不會重寫。

  • 使用樣本

    • 樣本1:基於Transactional表acid_delete,合并表檔案。命令樣本如下:

      alter table acid_delete compact minor;

      返回結果如下:

      Summary:
      Nothing found to merge, set odps.merge.cross.paths=true if cross path merge is permitted.
      OK
    • 樣本2:基於Transactional表acid_update_pt,合并表檔案。命令樣本如下:

      alter table acid_update_pt partition (ds = '2019') compact major;

      返回結果如下:

      Summary:
      table name: acid_update_pt /ds=2019  instance count: 2  run time: 6
        before merge, file count:        8  file size: 2613  file physical size: 7839
         after merge, file count:        2  file size: 679  file physical size: 2037
      
      OK

合并小檔案

Distributed File System按塊Block存放,檔案大小比塊大小(64 M)小的檔案稱之為小檔案。分布式系統不可避免會產生小檔案,比如SQL或其他分布式引擎計算結果,tunnel資料擷取都會產生小檔案,小檔案合并可以提高計算效能。

命令格式

ALTER TABLE <tablename> [PARTITION(<partition_key>=<partition_value>)] MERGE SMALLFILES;
  • 參數說明

    • table_name:必填。待合并檔案的表名稱。

    • partition_key:可選。當表為分區表時,指定分區列名。

    • partition_value:可選。當表為分區表時,指定分區列名對應的列值。

  • 使用樣本

    set odps.merge.cross.paths=true;
    set odps.merge.smallfile.filesize.threshold=128;
    set odps.merge.max.filenumber.per.instance = 2000;
    alter table tbcdm.dwd_tb_log_pv_di partition (ds='20151116') merge smallfiles;

使用合并小檔案功能需要用到計算資源,如果您購買的執行個體是隨用隨付,會產生相關費用,具體計費規則與SQL隨用隨付保持一致,詳情請參見計算費用

更多詳情,請參見合并小檔案

相關命令

  • CREATE TABLE:建立非分區表、分區表、外部表格或聚簇表。

  • TRUNCATE:將指定表中的資料清空。

  • DROP TABLE:刪除分區表或非分區表。

  • DESC TABLE/VIEW:查看MaxCompute內部表、視圖、物化視圖、外部表格、聚簇表或Transactional表的資訊。

  • SHOW:查看錶的SQL DDL語句、列出專案下所有的表和視圖或列出一張表中的所有分區。