全部產品
Search
文件中心

Tablestore:匹配查詢

更新時間:Jul 05, 2024

MatchQuery採用近似匹配的方式查詢表中的資料。Table Store會先對Text類型的列值和查詢關鍵詞按照設定好的分詞器做切分,然後按照切分好後的詞去查詢。對於使用模糊分詞的Text類型的列,建議使用MatchPhraseQuery實現高效能的模糊查詢。

情境

匹配查詢可用於尋找包含指定短語的資料,MatchPhraseQuery結合分詞使用能夠實現全文檢索索引,一般應用於巨量資料分析、內容搜尋、知識管理、社交媒體分析、日誌分析、智能問答系統、合規審查等情境,例如在電商平台中快速篩選商品標題、描述或標籤中包含使用者輸入關鍵字的商品列表、在日誌中快速定位錯誤資訊或異常操作。

功能概述

MatchQuery採用近似匹配的方式查詢表中的資料。例如某一行資料的title列(Text類型)的值是“杭州西湖風景區”,該列使用的分詞類型是單字分詞,如果MatchQuery中的查詢關鍵詞是“湖風”,則可以匹配到該行資料。

使用MatchQuery功能查詢資料時,您需要設定要匹配的列和查詢關鍵詞。只要查詢關鍵詞分詞後的多個詞在要匹配的列中存在就表示行資料滿足查詢條件。

查詢資料時還支援配置最小匹配個數、查詢權重、要返回的列、是否返回匹配的總行數、返回資料的排序方式等。

介面

匹配查詢的介面為Search或者ParallelScan,具體的Query類型為MatchQuery

參數

參數

說明

fieldName

要匹配的列。

匹配查詢可應用於Text類型。

text

查詢關鍵詞,即要匹配的值。

當要匹配的列為Text類型時,查詢關鍵詞會被分詞成多個詞,分詞類型為建立多元索引時設定的分詞器類型。如果建立多元索引時未設定分詞器類型,則預設分詞類型為單字分詞。

例如當要匹配的列為Text類型時,分詞類型為單字分詞,則查詢詞為"this is",可以匹配到“...,this is tablestore”、“is this tablestore”、“tablestore is cool”、“this"、“is”等。

query

設定查詢類型為matchQuery。

offset

本次查詢的開始位置。

limit

本次查詢需要返回的最大數量。

如果只為了擷取行數,無需具體資料,可以設定limit=0,即不返回任意一行資料。

minimumShouldMatch

最小匹配個數。

只有當某一行資料的fieldName列的值中至少包括最小匹配個數的詞時,才會返回該行資料。

說明

minimumShouldMatch需要與邏輯運算子OR配合使用。

operator

邏輯運算子。預設為OR,表示當分詞後的多個詞只要有部分匹配時,則行資料滿足查詢條件。

如果設定operator為AND,則只有分詞後的所有詞都在列值中時,才表示行資料滿足查詢條件。

getTotalCount

是否返回匹配的總行數,預設為false,表示不返回。

返回匹配的總行數會影響查詢效能。

weight

查詢權重,用於全文檢索索引情境中的score排序。查詢時指定列的算分權重,值越大,結果中分數的值會越大。取值範圍為正浮點數。

使用此參數不會影響返回的結果數,只會影響返回的結果中的分數。

tableName

資料表名稱。

indexName

多元索引名稱。

columnsToGet

是否返回所有列,包含returnAll和columns設定。

returnAll預設為false,表示不返回所有列,此時可以通過columns指定返回的列;如果未通過columns指定返回的列,則只返回主鍵列。

當設定returnAll為true時,表示返回所有列。

注意事項

多元索引只提供最基礎的BM25相關性,不提供自訂相關效能力。

使用方式

您可以使用控制台、命令列工具或者SDK進行匹配查詢。進行匹配查詢之前,您需要完成如下準備工作。

  • 使用阿里雲帳號或者使用具有Table Store操作許可權的RAM使用者進行操作。如果需要為RAM使用者授權Table Store操作許可權,請參見通過RAM Policy為RAM使用者授權進行配置。

    使用SDK方式和命令列工具方式進行操作時,如果當前無可用AccessKey,則需要為阿里雲帳號或者RAM使用者建立AccessKey。具體操作,請參見建立AccessKey

  • 已建立資料表。具體操作,請參見資料表操作

  • 已為資料表建立多元索引。具體操作,請參見建立多元索引

  • 使用SDK方式進行操作時,還需要完成初始化Client。具體操作,請參見初始化OTSClient

  • 使用命令列工具方式進行操作前,還需要完成下載並啟動命令列工具,然後配置接入執行個體資訊並選擇要操作的表。具體操作,請參見下載命令列工具啟動並配置資料表操作

使用控制台

  1. 進入索引管理頁簽。

    1. 登入Table Store控制台

    2. 在頁面上方,選擇資源群組和地區。

    3. 概覽頁面,單擊執行個體名稱或在操作列單擊執行個體管理

    4. 執行個體詳情頁簽下的資料表列表頁簽,單擊資料表名稱或在操作列單擊索引管理

  2. 索引管理頁簽,單擊目標多元索引操作列的搜尋

  3. 查詢資料對話方塊,查詢資料。

    1. 系統預設返回所有列,如需顯示指定屬性列,關閉擷取所有列並輸入需要返回的屬性列,多個屬性列之間用半形逗號(,)隔開。

      說明

      系統預設會返回資料表的主鍵列。

    2. 根據需要選擇邏輯操作符為AndOr或者Not

      當選擇邏輯操作符為And時,返回滿足指定條件的資料。當選擇邏輯操作符為Or時,如果配置了單個條件,則返回滿足指定條件的資料;如果配置了多個條件,則返回滿足任意一個條件的資料。當選擇邏輯操作符為Not時,返回不滿足指定條件的資料。

    3. 選擇Text類型的索引欄位,單擊添加

    4. 設定索引欄位的查詢類型為匹配查詢(MatchQuery)和輸入要查詢的值。

    5. 系統預設關閉排序功能,如需根據指定欄位對返回結果進行排序,開啟是否排序開關後,根據需要添加要進行排序的欄位並配置排序方式。

    6. 系統預設關閉統計功能,如需對指定欄位進行資料統計,開啟是否統計開關後,根據需要添加要進行統計的欄位和配置統計資訊。

  4. 單擊確定

    符合查詢條件的資料會顯示在索引管理頁簽中。

使用命令列工具

通過命令列工具執行search命令使用多元索引查詢資料。更多資訊,請參見多元索引

  1. 執行search命令使用search_index多元索引查詢表中資料,並返回所有建立索引的列。

    search -n search_index --return_all_indexed
  2. 根據系統提示輸入查詢條件,樣本如下:

    {
        "Offset": -1,
        "Limit": 10,
        "Collapse": null,
        "Sort": null,
        "GetTotalCount": true,
        "Token": null,
        "Query": {
            "Name": "MatchQuery",
            "Query": {
                "FieldName": "col_text",
                "Text": "this is",
                "MinimumShouldMatch": 1
            }
        }
    }

使用SDK

您可以通過Java SDKGo SDKPython SDKNode.js SDK.NET SDKPHP SDK使用匹配查詢。此處以Java SDK為例介紹匹配查詢的使用。

以下樣本用於查詢表中Col_Keyword列的值能夠匹配"hangzhou"的資料。

/**
 * 查詢表中Col_Keyword列的值能夠匹配"hangzhou"的資料,返回匹配到的總行數和一些匹配成功的行。
 * @param client
 */
private static void matchQuery(SyncClient client) {
    SearchQuery searchQuery = new SearchQuery();
    MatchQuery matchQuery = new MatchQuery(); //設定查詢類型為MatchQuery。
    matchQuery.setFieldName("Col_Keyword"); //設定要匹配的列。
    matchQuery.setText("hangzhou"); //設定要匹配的值。
    searchQuery.setQuery(matchQuery);
    searchQuery.setOffset(0); //設定offset為0。
    searchQuery.setLimit(20); //設定limit為20,表示最多返回20行資料。
    //searchQuery.setGetTotalCount(true); //設定返回匹配的總行數。

    SearchRequest searchRequest = new SearchRequest("<TABLE_NAME>", "<SEARCH_INDEX_NAME>", searchQuery);
    //通過設定columnsToGet參數可以指定返回的列或返回所有列,如果不設定此參數,則預設只返回主鍵列。
    //SearchRequest.ColumnsToGet columnsToGet = new SearchRequest.ColumnsToGet();
    //columnsToGet.setReturnAll(true); //設定為返回所有列。
    //columnsToGet.setColumns(Arrays.asList("ColName1","ColName2")); //設定為返回指定列。
    //searchRequest.setColumnsToGet(columnsToGet);

    SearchResponse resp = client.search(searchRequest);
    //System.out.println("TotalCount: " + resp.getTotalCount()); //列印匹配到的總行數,非返回行數。
    System.out.println("Row: " + resp.getRows());
}
            

計費說明

使用多元索引查詢資料時會消耗讀輸送量。更多資訊,請參見多元索引計量計費

常見問題

相關文檔