一致クエリを使用すると、あいまい一致に基づいてテーブル内のデータをクエリできます。Tablestore は、指定したアナライザータイプに基づいて、TEXT 列の値と一致クエリを実行するために使用するキーワードをトークン化します。このようにして、Tablestore はトークンに基づいて一致クエリを実行できます。あいまいクエリで高いパフォーマンスを確保するために、あいまいトークン化が使用される列には、一致フレーズクエリを使用することをお勧めします。
前提条件
OTSClient インスタンスが初期化されていること。詳細については、OTSClient インスタンスの初期化を参照してください。
データテーブルが作成され、データがデータテーブルに書き込まれていること。詳細については、データテーブルの作成とデータの書き込みを参照してください。
データテーブルの検索インデックスが作成されていること。詳細については、検索インデックスの作成を参照してください。
パラメーター
パラメーター | 説明 |
field_name | クエリする列の名前。 一致クエリは TEXT 列に適用されます。 |
text | 一致クエリを実行するときに列の値と一致させるために使用されるキーワード。 クエリする列が TEXT 列の場合、キーワードは、検索インデックスの作成時に指定したアナライザータイプに基づいて複数のトークンにトークン化されます。デフォルトでは、検索インデックスの作成時にアナライザータイプを指定しない場合、単一単語トークン化が実行されます。 たとえば、一致させる列が TEXT 列で、アナライザータイプを単一単語トークン化に設定し、検索キーワードとして "this is" を使用すると、"..., this is tablestore"、"is this tablestore"、"tablestore is cool"、"this"、"is" などのクエリ結果を取得できます。 |
query | クエリのタイプ。このパラメーターを MatchQuery に設定します。 |
table_name | データテーブルの名前。 |
index_name | 検索インデックスの名前。 |
limit | 現在のクエリで返す行の最大数。 行の特定のデータをクエリせずに、クエリ条件を満たす行の数のみをクエリするには、limit パラメーターを 0 に設定します。 |
operator | 論理演算子。デフォルトでは、OR が論理演算子として使用されます。この演算子は、列値に少なくとも最小数のトークンが含まれている場合、行がクエリ条件を満たすことを指定します。 operator パラメーターを AND に設定すると、列の値にすべてのトークンが含まれている場合にのみ、行はクエリ条件を満たします。 |
minimum_should_match | 列値に含まれる一致するトークンの最小数。 行のクエリ対象列の値に、少なくとも最小数の一致するトークン化キーワードが含まれている場合にのみ、行が返されます。 説明 minimum_should_match パラメーターは、OR 論理演算子と一緒に使用する必要があります。 |
get_total_count | クエリ条件を満たす行の総数を返すかどうかを指定します。このパラメーターのデフォルト値は false で、クエリ条件を満たす行の総数は返されないことを指定します。 このパラメーターを true に設定すると、クエリのパフォーマンスが低下します。 |
columns_to_get | クエリ条件を満たす各行のすべての列を返すかどうかを指定します。
|
例
次の例は、Col_Keyword 列の値が「this is」とほぼ一致する行をクエリする方法を示しています。
Tablestore SDK for Python V5.2.1 以後を使用して一致クエリを実行する
Tablestore SDK for Python V5.2.1 以後を使用して一致クエリを実行する場合、デフォルトで SearchResponse オブジェクトが返されます。次のコードはリクエストの例を示しています。
query = MatchQuery('Col_Keyword', 'this is') search_response = client.search( '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL) ) print('request_id : %s' % search_response.request_id) print('is_all_succeed : %s' % search_response.is_all_succeed) print('total_count : %s' % search_response.total_count) print('rows : %s' % search_response.rows) # # ディープページングが必要な場合は、next_token パラメーターを使用することをお勧めします。このメソッドにはページング深度の制限がないためです。 # all_rows = [] # next_token = None # # 最初のラウンド # search_response = client.search( # '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', # SearchQuery(query, next_token=next_token, limit=100, get_total_count=True), # columns_to_get=ColumnsToGet(return_type=ColumnReturnType.ALL)) # all_rows.extend(search_response.rows) # # # ループ # while search_response.next_token: # search_response = client.search( # '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', # SearchQuery(query, next_token=search_response.next_token, limit=100, get_total_count=True), # columns_to_get=ColumnsToGet(return_type=ColumnReturnType.ALL)) # all_rows.extend(search_response.rows) # print('Total rows:%s' % len(all_rows))
次のサンプルリクエストを使用して、タプル型の結果を返すことができます。
query = MatchQuery('Col_Keyword', 'this is') rows, next_token, total_count, is_all_succeed, agg_results, group_by_results = client.search( '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL) ).v1_response()
5.2.1 より前のバージョンの Tablestore SDK for Python を使用して一致クエリを実行する
5.2.1 より前のバージョンの Tablestore SDK for Python を使用して一致クエリを実行する場合、デフォルトで TUPLE 型の結果が返されます。次のサンプルコードはリクエストの例を示しています。
query = MatchQuery('Col_Keyword', 'this is') rows, next_token, total_count, is_all_succeed = client.search( '<TABLE_NAME>', '<SEARCH_INDEX_NAME>', SearchQuery(query, limit=100, get_total_count=True), ColumnsToGet(return_type=ColumnReturnType.ALL) )
FAQ
関連資料
検索インデックスを使用してデータをクエリする場合、次のクエリメソッドを使用できます:タームクエリ、タームズクエリ、すべて一致クエリ、一致クエリ、一致フレーズクエリ、プレフィックスクエリ、範囲クエリ、ワイルドカードクエリ、地理クエリ、ブールクエリ、KNNベクトル検索、ネストされたクエリ、存在クエリ。検索インデックスによって提供されるクエリメソッドを使用して、ビジネス要件に基づいて複数のディメンションからデータをクエリできます。
並べ替え機能とページング機能を使用して、クエリ条件を満たす行を並べ替えたりページネーションしたりできます。詳細については、並べ替えとページングを参照してください。
折りたたみ(重複排除)機能を使用して、特定の列に基づいて結果セットを折りたたむことができます。このようにして、指定されたタイプのデータはクエリ結果に1回だけ表示されます。詳細については、折りたたみ(重複排除)を参照してください。
データテーブル内のデータを分析する場合は、Search オペレーションの集計機能を使用するか、SQL ステートメントを実行できます。たとえば、最小値、最大値、合計、行の総数などを取得できます。詳細については、集計とSQL クエリを参照してください。
行を並べ替えることなく、クエリ条件を満たすすべての行を取得する場合は、ParallelScan オペレーションと ComputeSplits オペレーションを呼び出して並列スキャン機能を使用できます。詳細については、並列スキャンを参照してください。