全部產品
Search
文件中心

Tablestore:摺疊(去重)

更新時間:Jul 05, 2024

當資料查詢的結果中含有某種類型的資料較多時,可以使用摺疊(Collapse)功能按照某一列對結果集做摺疊,使對應類型的資料在結果展示中只出現一次,保證結果展示中類型的多樣性。

摺疊功能可以在大部分情境下實現去重(Distinct)功能,相當於按照摺疊列做去重,但是只支援應用於整型、浮點數和Keyword類型的列,不支援數群組類型的列,且只能返回排序後的前50000個結果。

注意事項

  • 摺疊功能只能使用offset+limit方式翻頁,不能使用token方式。

  • 對結果集同時使用統計彙總與摺疊功能時,統計彙總功能只作用於使用摺疊功能前的結果集。

  • 使用摺疊功能後,返回的總分組數取決於offset+limit的最大值,目前支援返回的總分組數最大為50000。

  • 執行結果中返回的總行數是使用摺疊功能前的匹配行數,使用摺疊功能後的總分組數無法擷取。

介面

摺疊(去重)功能的介面為Search,通過collapse參數實現。

參數

參數

說明

query

可以是任意Query類型。

collapse

摺疊參數設定,包含fieldName設定。

fieldName:列名,按該列對結果集做摺疊,只支援應用於整型、浮點數和Keyword類型的列,不支援數群組類型的列。

offset

本次查詢的開始位置。

limit

本次查詢需要返回的最大數量。

如果只為了擷取行數,無需具體資料,可以設定limit=0,即不返回任意一行資料。

getTotalCount

是否返回匹配的總行數,預設為false,表示不返回。

返回匹配的總行數會影響查詢效能。

tableName

資料表名稱。

indexName

多元索引名稱。

columnsToGet

是否返回所有列,包含returnAll和columns設定。

returnAll預設為false,表示不返回所有列,此時可以通過columns指定返回的列;如果未通過columns指定返回的列,則只返回主鍵列。

當設定returnAll為true時,表示返回所有列。

使用方式

您可以使用命令列工具或者SDK在查詢資料時進行摺疊(去重)。進行摺疊(去重)之前,您需要完成如下準備工作。

  • 使用阿里雲帳號或者使用具有Table Store操作許可權的RAM使用者進行操作。如果需要為RAM使用者授權Table Store操作許可權,請參見通過RAM Policy為RAM使用者授權進行配置。

    使用SDK方式和命令列工具方式進行操作時,如果當前無可用AccessKey,則需要為阿里雲帳號或者RAM使用者建立AccessKey。具體操作,請參見建立AccessKey

  • 已建立資料表。具體操作,請參見資料表操作

  • 已為資料表建立多元索引。具體操作,請參見建立多元索引

  • 使用SDK方式進行操作時,還需要完成初始化Client。具體操作,請參見初始化OTSClient

  • 使用命令列工具方式進行操作前,還需要完成下載並啟動命令列工具,然後配置接入執行個體資訊並選擇要操作的表。具體操作,請參見下載命令列工具啟動並配置資料表操作

使用命令列工具

通過命令列工具執行search命令使用多元索引查詢資料,並在查詢條件中配置Collapse參數實現摺疊(去重)功能。更多資訊,請參見多元索引

  1. 執行search命令使用search_index多元索引查詢表中資料,並返回所有建立索引的列。

    search -n search_index --return_all_indexed
  2. 根據系統提示輸入查詢條件,樣本如下:

    {
        "Offset": -1,
        "Limit": 10,
        "Collapse": {
            "FieldName": "product_name"
        },
        "Sort": null,
        "GetTotalCount": true,
        "Token": null,
        "Query": {
            "Name": "MatchQuery",
            "Query": {
                "FieldName": "user_id",
                "Text": "00002",
                "MinimumShouldMatch": 1
            }
        }
    }

使用SDK

您可以通過Java SDKGo SDKPython SDKNode.js SDK.NET SDKPHP SDK在查詢資料時進行摺疊(去重)。此處以Java SDK為例介紹摺疊(去重)的使用。

以下樣本用於查詢表中user_id列的值能夠匹配"00002"的資料,結果集按照product_name列的值做摺疊。

private static void UseCollapse(SyncClient client){
    SearchQuery searchQuery = new SearchQuery(); //構造查詢條件。
    MatchQuery matchQuery = new MatchQuery();
    matchQuery.setFieldName("user_id");
    matchQuery.setText("00002");

    searchQuery.setQuery(matchQuery);
    Collapse collapse = new Collapse("product_name"); //根據"product_name"列對結果集做摺疊。
    searchQuery.setCollapse(collapse);

    //searchQuery.setOffset(1000);//本次查詢的開始位置。
    searchQuery.setLimit(20);
    //searchQuery.setGetTotalCount(true);//設定返回匹配的總行數。

    SearchRequest searchRequest = new SearchRequest("<TABLE_NAME>", "<SEARCH_INDEX_NAME>", searchQuery);//設定資料表名稱和多元索引名稱。    
    //通過設定columnsToGet參數可以指定返回的列或返回所有列,如果不設定此參數,則預設只返回主鍵列。
    //SearchRequest.ColumnsToGet columnsToGet = new SearchRequest.ColumnsToGet();
    //columnsToGet.setReturnAll(true); //設定為返回所有列。
    //columnsToGet.setColumns(Arrays.asList("ColName1","ColName2")); //設定為返回指定列。
    //searchRequest.setColumnsToGet(columnsToGet);

    SearchResponse response = client.search(searchRequest);  
    //System.out.println(response.getTotalCount());    
    //System.out.println(response.getRows().size()); //根據"product_name"列的產品種類返回個數。
    System.out.println(response.getRows()); //根據"product_name"列的產品種類返回相應產品名稱。
}

計費說明

使用多元索引查詢資料時會消耗讀輸送量。更多資訊,請參見多元索引計量計費

在查詢資料時使用摺疊(去重)功能不會影響現有計費規則。

常見問題

相關文檔