全部產品
Search
文件中心

:建立多元索引

更新時間:Sep 13, 2024

使用CreateSearchIndex介面在資料表上建立一個多元索引。一個資料表支援建立多個多元索引。建立多元索引時,您需要將要查詢的欄位添加到多元索引中,您還可以配置多元索引路由鍵、預排序等進階選項。

前提條件

  • 已初始化Client。具體操作,請參見初始化OTSClient

  • 已建立資料表,且資料表的最大版本數(max_version)必須為1,資料生命週期(time_to_live)必須滿足如下條件中的任意一個。具體操作,請參見建立資料表

    • 資料表的資料生命週期為-1(資料永不到期)。

    • 資料表的資料生命週期不為-1時,資料表為禁止更新狀態(即是否允許更新)。

注意事項

  • 建立多元索引時,多元索引中欄位的資料類型必須與資料表中欄位的資料類型相匹配。更多資訊,請參見基礎資料類型及映射

  • 如果要修改多元索引為指定資料生命週期(即取值不為-1),則您必須禁用資料表的UpdateRow更新寫入功能。同時多元索引的TTL值必須小於或等於資料表的TTL值。更多資訊,請參見生命週期管理

參數

建立多元索引時,需要指定資料表名稱(table_name)、多元索引名稱(index_name)和索引的結構資訊(schema),其中schema包含field_schemas(Index的所有欄位的設定)、index_setting(索引設定)和index_sort(索引預排序設定)。詳細參數說明請參見下表。

組成

說明

table_name

資料表名稱。

index_name

多元索引名稱。

field_schemas

field_schema的列表,每個field_schema包含如下內容:

  • field_name(必選):建立多元索引的欄位名,即列名,類型為String。

    多元索引中的欄位可以是主鍵列或者屬性列。

  • field_type(必選):欄位類型,類型為FieldType.XXX。更多資訊,請參見基礎資料類型及映射

  • is_array(可選):是否為數組,類型為Boolean。

    如果設定為True,則表示該列是一個數組,在寫入時,必須按照JSON數組格式寫入,例如["a","b","c"]。

    由於Nested類型是一個數組,當field_type為Nested類型時,無需設定此參數。

  • index(可選):是否開啟索引,類型為Boolean。

    預設為True,表示對該列構建倒排索引或者空間索引;如果設定為False,則不會對該列構建索引。

  • analyzer(可選):分詞器類型。當欄位類型為Text時,可以設定此參數;如果不設定,則預設分詞器類型為單字分詞。關於分詞的更多資訊,請參見分詞

  • enable_sort_and_agg(可選):是否開啟排序與統計彙總功能,類型為Boolean。

    只有enable_sort_and_agg設定為True的欄位才能進行排序。關於排序的更多資訊,請參見排序和翻頁

    重要

    Nested類型的欄位不支援開啟排序與統計彙總功能,但是Nested類型內部的子列支援開啟排序與統計彙總功能。

  • store(可選):是否在多元索引中附加儲存該欄位的值,類型為Boolean。

    開啟後,可以直接從多元索引中讀取該欄位的值,而不必反查資料表,可用於查詢效能最佳化。

  • sub_field_schemas(可選):當欄位類型為Nested類型時,需要通過此參數設定嵌套文檔中子列的索引類型,類型為field_schema的列表。

  • is_virtual_field(可選):該欄位是否為虛擬列,類型為Boolean類型,預設值為False。如果要使用虛擬列,請設定此參數為True。關於虛擬列的更多資訊,請參見虛擬列

  • source_field_name(可選):資料表中的欄位名稱,類型為String。

    重要

    當設定is_virtual_field為True時,必須設定此參數。

  • date_formats(可選):日期的格式,類型為String。更多資訊,請參見日期時間類型

    重要

    當欄位類型為Date時,必須設定此參數。

  • enable_highlighting(可選):是否開啟查詢高亮功能,類型為Boolean。預設值為False,表示不開啟查詢高亮。如果要使用查詢高亮,請設定此參數為True。僅Text類型欄位支援查詢高亮功能。關於查詢高亮的更多資訊,請參見查詢高亮

    重要
    • 目前此參數只支援通過SDK方式進行配置。

    • Table StorePython SDK從6.0.0版本開始支援此功能。

  • vector_options(可選):向量欄位類型的屬性參數。當欄位類型為Vector時,必須設定此參數。包括如下內容:

    • data_type:向量資料類型。當前僅支援float32。如果有其他類型需求,請提交工單聯絡我們。

    • dimension:向量維度。關於維度限制說明請參見多元索引限制

    • metric_type:向量之間距離度量的演算法,支援歐氏距離(euclidean)、餘弦相似性(cosine)、點積(dot_product)。

      • 歐氏距離(euclidean):多維空間中兩個向量之間的直線距離。出於效能考慮,Table Store中的歐氏距離演算法未進行最後的平方根計算。歐氏距離的評分越大表示兩個向量的相似性越大。

      • 餘弦相似性(cosine):向量空間中兩個向量間夾角的餘弦值。餘弦相似性的評分越高表示兩個向量的相似性越大。常用於文本資料的相似性計算。

      • 點積(dot_product):維度相同的兩個向量的對應座標相乘,然後將結果相加。點積的評分越高標識兩個向量的相似性越大。

      關於如何選用距離度量演算法的更多資訊,請參見附錄:距離度量演算法說明

index_setting

索引設定,包含routing_fields設定。

routing_fields(可選):自訂路由欄位。可以選擇部分主鍵列作為路由欄位,在進行索引資料寫入時,會根據路由欄位的值計算索引資料的分布位置,路由欄位的值相同的記錄會被索引到相同的資料分區中。

index_sort

索引預排序設定,包含sorters設定。如果不設定,則預設按照主鍵排序。

說明

含有Nested類型的索引不支援indexSort,沒有預排序。

sorters(必選):索引的預排序方式,支援按照主鍵排序和欄位值排序。關於排序的更多資訊,請參見排序和翻頁

  • PrimaryKeySort表示按照主鍵排序,包含如下設定:

    sort_order:排序的順序,可按升序或者降序排序,預設為升序(SortOrder.ASC)。

  • FieldSort表示按照欄位值排序,包含如下設定:

    只有建立索引且開啟排序與統計彙總功能的欄位才能進行預排序。

    • field_name:排序的欄位名。

    • sort_order:排序的順序,可按照升序或者降序排序,預設為升序(SortOrder.ASC)。

    • sort_mode:當欄位存在多個值時的排序方式。

樣本

建立多元索引時設定分詞

以下樣本用於在建立多元索引時設定分詞。該多元索引包括k(Keyword類型)、t(Text類型)、g(Geopoint類型)、ka(數組Keyword類型)、la(數組Long類型)和n(Nested類型)六個欄位。其中n欄位包括nk(Keyword類型)、nl(Long類型)和nt(Text類型)三個子欄位。

def create_search_index(client):
    # Keyword類型的欄位,建立索引並開啟統計彙總功能。
    field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True)
    # Text類型的欄位,建立索引並使用單字分詞。
    field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SINGLEWORD)
    # Text類型的欄位,建立索引並使用模糊分詞。
    #field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.FUZZY,analyzer_parameter=FuzzyAnalyzerParameter(1, 6))
    # Text類型的欄位,建立索引並使用自訂分隔字元半形逗號(,)進行分詞。
    #field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SPLIT, analyzer_parameter = SplitAnalyzerParameter(","))
    # Geopoint類型的欄位,建立索引。
    field_c = FieldSchema('g', FieldType.GEOPOINT, index=True, store=True)
    # 數組Kerword類型欄位,建立索引。
    field_d = FieldSchema('ka', FieldType.KEYWORD, index=True, is_array=True, store=True)
    # 數組Long類型欄位,建立索引。
    field_e = FieldSchema('la', FieldType.LONG, index=True, is_array=True, store=True)

    # Nested類型欄位,包括nk(Keyword類型)、nl(Long類型)和nt(Text類型)三個子欄位。
    field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
        FieldSchema('nk', FieldType.KEYWORD, index=True, store=True),
        FieldSchema('nl', FieldType.LONG, index=True, store=True),
        FieldSchema('nt', FieldType.TEXT, index=True, store=True),
    ])

    fields = [field_a, field_b, field_c, field_d, field_e, field_n]

    index_setting = IndexSetting(routing_fields=['PK1']) 
    index_sort = None #當多元索引中存在Nested類型欄位時,不能設定索引預排序.
    #index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
    index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
    client.create_search_index('<TABLE_NAME>', '<SEARCH_INDEX_NAME>', index_meta)

建立多元索引時設定向量欄位

以下樣本用於建立一個多元索引。該多元索引包括col_keyword(Keyword類型)、col_long(Long類型)和col_vector(Vector類型)三列。其中向量欄位的距離度量的演算法為點積。

def create_search_index(client):
    index_meta = SearchIndexMeta([
        FieldSchema('col_keyword', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True),  # 字串類型
        FieldSchema('col_long', FieldType.LONG, index=True, store=True),  # 數字類型
        FieldSchema("col_vector", FieldType.VECTOR,  # 向量類型
                    vector_options=VectorOptions(
                        data_type=VectorDataType.VD_FLOAT_32,
                        dimension=4,  # 向量維度為4,相似性演算法為: 點積
                        metric_type=VectorMetricType.VM_DOT_PRODUCT
                    )),

    ])
    client.create_search_index(table_name, index_name, index_meta)

建立多元索引時開啟查詢高亮

以下樣本用於在建立多元索引時開啟查詢高亮。該多元索引包括k(Keyword類型)、t(Text類型)和n(Nested類型)三個欄位,其中n欄位包括nk(Keyword類型)、nl(Long類型)和nt(Text類型)三個子欄位。同時為t欄位和n欄位中的nt子欄位開啟查詢高亮功能。

def create_search_index0905(client):
    # Keyword類型的欄位,建立索引並開啟統計彙總功能。
    field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True)
    # Text類型的欄位,建立索引並使用單字分詞,同時為欄位開啟查詢高亮功能。
    field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SINGLEWORD,
                        enable_highlighting=True)

    # Nested類型欄位,包括nk(Keyword類型)、nl(Long類型)和nt(Text類型)三個子欄位,同時為nt子列開啟查詢高亮功能。
    field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
        FieldSchema('nk', FieldType.KEYWORD, index=True, store=True),
        FieldSchema('nl', FieldType.LONG, index=True, store=True),
        FieldSchema('nt', FieldType.TEXT, index=True, store=True, enable_highlighting=True),
    ])

    fields = [field_a, field_b, field_n]

    index_setting = IndexSetting(routing_fields=['id'])
    index_sort = None  # 當多元索引中存在Nested類型欄位時,不能設定索引預排序.
    # index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
    index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
    client.create_search_index('pythontest', 'pythontest_0905', index_meta)

常見問題

相關文檔

  • 建立多元索引後,您可以選擇合適的查詢類型進行多維度資料查詢。多元索引查詢類型包括精確查詢多詞精確查詢全匹配查詢匹配查詢短語匹配查詢首碼查詢範圍查詢萬用字元查詢地理位置查詢多條件組合查詢向量檢索巢狀型別查詢列存在性查詢

    當通過Search介面查詢資料時,如果要對結果集進行排序或者翻頁,您可以使用排序和翻頁功能來實現。具體操作,請參見排序和翻頁

  • 當通過Search介面查詢資料時,如果要按照某一列對結果集做摺疊,使對應類型的資料在結果展示中只出現一次,您可以使用摺疊(去重)功能來實現。具體操作,請參見摺疊(去重)

  • 如果希望清理多元索引中的歷史資料或者希望延長資料儲存時間,您可以修改多元索引的資料生命週期。具體操作,請參見生命週期管理

  • 如果要進行資料分析,例如求最值、求和、統計行數等,您可以使用Search介面的統計彙總功能或者SQL查詢來實現。具體操作,請參見統計彙總SQL查詢

  • 如果要快速匯出資料,而不關心整個結果集的順序時,您可以使用ParallelScan介面和ComputeSplits介面實現多並發匯出資料。具體操作,請參見並發匯出資料

  • 如果要在多元索引中新增、更新或者刪除索引列,您可以使用動態修改schema功能實現。具體操作,請參見動態修改schema

  • 如果要擷取某個資料表關聯的所有多元索引的列表資訊,您可以使用列出多元索引列表功能實現。具體操作,請參見列出多元索引列表

  • 如果要查詢多元索引的描述資訊,包括多元索引的欄位資訊和索引配置等,您可以使用查詢多元索引描述資訊功能實現。具體操作,請參見查詢多元索引描述資訊

  • 如果不再需要使用多元索引,您可以刪除多元索引。具體操作,請參見刪除多元索引