全部產品
Search
文件中心

Tablestore:短語匹配查詢

更新時間:Jul 05, 2024

短語匹配查詢(MatchPhraseQuery)類似於匹配查詢(MatchQuery),但是分詞後多個詞的位置關係會被考慮,只有分詞後的多個詞在行資料中以同樣的順序和位置存在時,才表示行資料滿足查詢條件。如果查詢列的分詞類型為模糊分詞,則使用MatchPhraseQuery可以實現比WildcardQuery更快的模糊查詢。

情境

MatchPhraseQuery可用於尋找包含指定短語且短語順序匹配的資料,MatchPhraseQuery結合分詞使用能夠實現全文檢索索引,一般應用於巨量資料分析、內容搜尋和個人化推薦等情境,例如在內容檢索中尋找包含指定短語的句子、在聊天記錄中定位包含指定對話序列的訊息。

功能概述

MatchPhraseQuery採用近似匹配的方式查詢表中的資料,但是分詞後多個詞的位置關係會被考慮。例如Text類型欄位的值是“杭州西湖風景區”,Query中查詢關鍵字是“杭州風景區”,如果Query類型是MatchQuery,則可以匹配到該行資料,但是如果Query類型是MatchPhraseQuery,則不能匹配到該行資料,因為“杭州”和“風景區”在Query中的距離是0,但是在行資料中的距離是2(西湖兩個字導致間隔距離是2)。

使用MatchPhraseQuery功能查詢資料時,您需要設定要匹配的列和查詢關鍵詞。只有當查詢關鍵詞分詞後的多個詞在要匹配的列中以同樣的順序和位置存在時,才表示行資料滿足查詢條件。

查詢資料時還支援配置查詢權重、要返回的列、是否返回匹配的總行數、返回資料的排序方式等。

介面

短語匹配查詢的介面為Search或者ParallelScan,具體的Query類型為MatchPhraseQuery

參數

參數

說明

fieldName

要匹配的列。

短語匹配查詢可應用於Text類型。

text

查詢關鍵詞,即要匹配的值。

當要匹配的列為Text類型時,查詢關鍵詞會被分詞成多個詞,分詞類型為建立多元索引時設定的分詞器類型。如果建立多元索引時未設定分詞器類型,則預設分詞類型為單字分詞。關於分詞的更多資訊,請參見分詞

例如查詢的值為“this is”,可以匹配到“...,this is tablestore”、“this is a table”,但是無法匹配到“this table is ...”以及“is this a table”。

query

設定查詢類型為matchPhraseQuery。

offset

本次查詢的開始位置。

limit

本次查詢需要返回的最大數量。

如果只為了擷取行數,無需具體資料,可以設定limit=0,即不返回任意一行資料。

getTotalCount

是否返回匹配的總行數,預設為false,表示不返回。

返回匹配的總行數會影響查詢效能。

weight

查詢權重,用於全文檢索索引情境中的score排序。查詢時指定列的算分權重,值越大,結果中分數的值會越大。取值範圍為正浮點數。

使用此參數不會影響返回的結果數,只會影響返回的結果中的分數。

tableName

資料表名稱。

indexName

多元索引名稱。

columnsToGet

是否返回所有列,包含returnAll和columns設定。

returnAll預設為false,表示不返回所有列,此時可以通過columns指定返回的列;如果未通過columns指定返回的列,則只返回主鍵列。

當設定returnAll為true時,表示返回所有列。

注意事項

多元索引只提供最基礎的BM25相關性,不提供自訂相關效能力。

使用方式

您可以使用控制台、命令列工具或者SDK進行短語匹配查詢。

進行短語匹配查詢之前,您需要完成如下準備工作。

  • 使用阿里雲帳號或者使用具有Table Store操作許可權的RAM使用者進行操作。如果需要為RAM使用者授權Table Store操作許可權,請參見通過RAM Policy為RAM使用者授權進行配置。

    使用SDK方式和命令列工具方式進行操作時,如果當前無可用AccessKey,則需要為阿里雲帳號或者RAM使用者建立AccessKey。具體操作,請參見建立AccessKey

  • 已建立資料表。具體操作,請參見資料表操作

  • 已為資料表建立多元索引。具體操作,請參見建立多元索引

  • 使用SDK方式進行操作時,還需要完成初始化Client。具體操作,請參見初始化OTSClient

  • 使用命令列工具方式進行操作前,還需要完成下載並啟動命令列工具,然後配置接入執行個體資訊並選擇要操作的表。具體操作,請參見下載命令列工具啟動並配置資料表操作

使用控制台

通過控制台進行短語匹配查詢。

  1. 進入索引管理頁簽。

    1. 登入Table Store控制台

    2. 在頁面上方,選擇資源群組和地區。

    3. 概覽頁面,單擊執行個體名稱或在操作列單擊執行個體管理

    4. 執行個體詳情頁簽下的資料表列表頁簽,單擊資料表名稱或在操作列單擊索引管理

  2. 索引管理頁簽,單擊目標多元索引操作列的搜尋

  3. 查詢資料對話方塊,查詢資料。

    1. 系統預設返回所有列,如需顯示指定屬性列,關閉擷取所有列並輸入需要返回的屬性列,多個屬性列之間用半形逗號(,)隔開。

      說明

      系統預設會返回資料表的主鍵列。

    2. 根據需要選擇邏輯操作符為AndOr或者Not

      當選擇邏輯操作符為And時,返回滿足指定條件的資料。當選擇邏輯操作符為Or時,如果配置了單個條件,則返回滿足指定條件的資料;如果配置了多個條件,則返回滿足任意一個條件的資料。當選擇邏輯操作符為Not時,返回不滿足指定條件的資料。

    3. 選擇Text類型的索引欄位,單擊添加

    4. 設定索引欄位的查詢類型為短語匹配查詢(MatchPhraseQuery)和輸入要查詢的值。

    5. 系統預設關閉排序功能,如需根據指定欄位對返回結果進行排序,開啟是否排序開關後,根據需要添加要進行排序的欄位並配置排序方式。

    6. 系統預設關閉統計功能,如需對指定欄位進行資料統計,開啟是否統計開關後,根據需要添加要進行統計的欄位和配置統計資訊。

  4. 單擊確定

    符合查詢條件的資料會顯示在索引管理頁簽中。

使用命令列工具

通過命令列工具執行search命令使用多元索引查詢資料。更多資訊,請參見多元索引

  1. 執行search命令使用search_index多元索引查詢表中資料,並返回所有建立索引的列。

    search -n search_index --return_all_indexed
  2. 根據系統提示輸入查詢條件,樣本如下:

    {
        "Offset": -1,
        "Limit": 10,
        "Collapse": null,
        "Sort": null,
        "GetTotalCount": true,
        "Token": null,
        "Query": {
            "Name": "MatchPhraseQuery",
            "Query": {
                "FieldName": "col_text",
                "Text": "this is"
            }
        }
    }

使用SDK

您可以通過Java SDKGo SDKPython SDKNode.js SDK.NET SDKPHP SDK使用短語匹配查詢。此處以Java SDK為例介紹短語匹配查詢的使用。

以下樣本用於查詢表中Col_Text列的值能夠匹配"hangzhou shanghai"的資料,匹配條件為短語匹配(要求短語完整的按照順序匹配)。

/**
 * 查詢表中Col_Text列的值能夠匹配"hangzhou shanghai"的資料,匹配條件為短語匹配(要求短語完整的按照順序匹配),返回匹配到的總行數和一些匹配成功的行。
 * @param client
 */
private static void matchPhraseQuery(SyncClient client) {
    SearchQuery searchQuery = new SearchQuery();
    MatchPhraseQuery matchPhraseQuery = new MatchPhraseQuery(); //設定查詢類型為MatchPhraseQuery。
    matchPhraseQuery.setFieldName("Col_Text"); //設定要匹配的列。
    matchPhraseQuery.setText("hangzhou shanghai"); //設定要匹配的值。
    searchQuery.setQuery(matchPhraseQuery);
    searchQuery.setOffset(0); //設定offset為0。
    searchQuery.setLimit(20); //設定limit為20,表示最多返回20行資料。
    //searchQuery.setGetTotalCount(true); //設定返回匹配的總行數。

    SearchRequest searchRequest = new SearchRequest("<TABLE_NAME>", "<SEARCH_INDEX_NAME>", searchQuery); 
    //通過設定columnsToGet參數可以指定返回的列或返回所有列,如果不設定此參數,則預設只返回主鍵列。
    //SearchRequest.ColumnsToGet columnsToGet = new SearchRequest.ColumnsToGet();
    //columnsToGet.setReturnAll(true); //設定為返回所有列。
    //columnsToGet.setColumns(Arrays.asList("ColName1","ColName2")); //設定為返回指定列。
    //searchRequest.setColumnsToGet(columnsToGet);

    SearchResponse resp = client.search(searchRequest);
    //System.out.println("TotalCount: " + resp.getTotalCount()); //列印匹配到的總行數,非返回行數。
    System.out.println("Row: " + resp.getRows());
}

計費說明

使用多元索引查詢資料時會消耗讀輸送量。更多資訊,請參見多元索引計量計費

常見問題

相關文檔