使用CreateSearchIndex接口在数据表上创建一个多元索引。一个数据表支持创建多个多元索引。创建多元索引时,您需要将要查询的字段添加到多元索引中,您还可以配置多元索引路由键、预排序等高级选项。
前提条件
已初始化Client。具体操作,请参见初始化OTSClient。
已创建数据表,且数据表的最大版本数(max_version)必须为1,数据生命周期(time_to_live)必须满足如下条件中的任意一个。具体操作,请参见创建数据表。
数据表的数据生命周期为-1(数据永不过期)。
数据表的数据生命周期不为-1时,数据表为禁止更新状态(即是否允许更新为否)。
注意事项
参数
创建多元索引时,需要指定数据表名称(table_name)、多元索引名称(index_name)和索引的结构信息(schema),其中schema包含field_schemas(Index的所有字段的设置)、index_setting(索引设置)和index_sort(索引预排序设置)。详细参数说明请参见下表。
组成 | 说明 |
table_name | 数据表名称。 |
index_name | 多元索引名称。 |
field_schemas | field_schema的列表,每个field_schema包含如下内容:
|
index_setting | 索引设置,包含routing_fields设置。 routing_fields(可选):自定义路由字段。可以选择部分主键列作为路由字段,在进行索引数据写入时,会根据路由字段的值计算索引数据的分布位置,路由字段的值相同的记录会被索引到相同的数据分区中。 |
index_sort | 索引预排序设置,包含sorters设置。如果不设置,则默认按照主键排序。 说明 含有Nested类型的索引不支持indexSort,没有预排序。 sorters(必选):索引的预排序方式,支持按照主键排序和字段值排序。关于排序的更多信息,请参见排序和翻页。
|
示例
创建多元索引时设置分词
以下示例用于在创建多元索引时设置分词。该多元索引包括k(Keyword类型)、t(Text类型)、g(Geopoint类型)、ka(数组Keyword类型)、la(数组Long类型)和n(Nested类型)六个字段。其中n字段包括nk(Keyword类型)、nl(Long类型)和nt(Text类型)三个子字段。
def create_search_index(client):
# Keyword类型的字段,建立索引并开启统计聚合功能。
field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True)
# Text类型的字段,建立索引并使用单字分词。
field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SINGLEWORD)
# Text类型的字段,建立索引并使用模糊分词。
#field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.FUZZY,analyzer_parameter=FuzzyAnalyzerParameter(1, 6))
# Text类型的字段,建立索引并使用自定义分隔符半角逗号(,)进行分词。
#field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SPLIT, analyzer_parameter = SplitAnalyzerParameter(","))
# Geopoint类型的字段,建立索引。
field_c = FieldSchema('g', FieldType.GEOPOINT, index=True, store=True)
# 数组Kerword类型字段,建立索引。
field_d = FieldSchema('ka', FieldType.KEYWORD, index=True, is_array=True, store=True)
# 数组Long类型字段,建立索引。
field_e = FieldSchema('la', FieldType.LONG, index=True, is_array=True, store=True)
# Nested类型字段,包括nk(Keyword类型)、nl(Long类型)和nt(Text类型)三个子字段。
field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
FieldSchema('nk', FieldType.KEYWORD, index=True, store=True),
FieldSchema('nl', FieldType.LONG, index=True, store=True),
FieldSchema('nt', FieldType.TEXT, index=True, store=True),
])
fields = [field_a, field_b, field_c, field_d, field_e, field_n]
index_setting = IndexSetting(routing_fields=['PK1'])
index_sort = None #当多元索引中存在Nested类型字段时,不能设置索引预排序.
#index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
client.create_search_index('<TABLE_NAME>', '<SEARCH_INDEX_NAME>', index_meta)
创建多元索引时设置向量字段
以下示例用于创建一个多元索引。该多元索引包括col_keyword(Keyword类型)、col_long(Long类型)和col_vector(Vector类型)三列。其中向量字段的距离度量的算法为点积。
def create_search_index(client):
index_meta = SearchIndexMeta([
FieldSchema('col_keyword', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True), # 字符串类型
FieldSchema('col_long', FieldType.LONG, index=True, store=True), # 数字类型
FieldSchema("col_vector", FieldType.VECTOR, # 向量类型
vector_options=VectorOptions(
data_type=VectorDataType.VD_FLOAT_32,
dimension=4, # 向量维度为4,相似度算法为: 点积
metric_type=VectorMetricType.VM_DOT_PRODUCT
)),
])
client.create_search_index(table_name, index_name, index_meta)
创建多元索引时开启查询高亮
以下示例用于在创建多元索引时开启查询高亮。该多元索引包括k(Keyword类型)、t(Text类型)和n(Nested类型)三个字段,其中n字段包括nk(Keyword类型)、nl(Long类型)和nt(Text类型)三个子字段。同时为t字段和n字段中的nt子字段开启查询高亮功能。
def create_search_index0905(client):
# Keyword类型的字段,建立索引并开启统计聚合功能。
field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True)
# Text类型的字段,建立索引并使用单字分词,同时为字段开启查询高亮功能。
field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SINGLEWORD,
enable_highlighting=True)
# Nested类型字段,包括nk(Keyword类型)、nl(Long类型)和nt(Text类型)三个子字段,同时为nt子列开启查询高亮功能。
field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
FieldSchema('nk', FieldType.KEYWORD, index=True, store=True),
FieldSchema('nl', FieldType.LONG, index=True, store=True),
FieldSchema('nt', FieldType.TEXT, index=True, store=True, enable_highlighting=True),
])
fields = [field_a, field_b, field_n]
index_setting = IndexSetting(routing_fields=['id'])
index_sort = None # 当多元索引中存在Nested类型字段时,不能设置索引预排序.
# index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
client.create_search_index('pythontest', 'pythontest_0905', index_meta)
常见问题
相关文档
创建多元索引后,您可以选择合适的查询类型进行多维度数据查询。多元索引查询类型包括精确查询、多词精确查询、全匹配查询、匹配查询、短语匹配查询、前缀查询、范围查询、通配符查询、地理位置查询、多条件组合查询、向量检索、嵌套类型查询和列存在性查询。
当通过Search接口查询数据时,如果要对结果集进行排序或者翻页,您可以使用排序和翻页功能来实现。具体操作,请参见排序和翻页。
当通过Search接口查询数据时,如果要按照某一列对结果集做折叠,使对应类型的数据在结果展示中只出现一次,您可以使用折叠(去重)功能来实现。具体操作,请参见折叠(去重)。
如果希望清理多元索引中的历史数据或者希望延长数据保存时间,您可以修改多元索引的数据生命周期。具体操作,请参见生命周期管理。
如果要进行数据分析,例如求最值、求和、统计行数等,您可以使用Search接口的统计聚合功能或者SQL查询来实现。具体操作,请参见统计聚合和SQL查询。
如果要快速导出数据,而不关心整个结果集的顺序时,您可以使用ParallelScan接口和ComputeSplits接口实现多并发导出数据。具体操作,请参见并发导出数据。
如果要在多元索引中新增、更新或者删除索引列,您可以使用动态修改schema功能实现。具体操作,请参见动态修改schema。
如果要获取某个数据表关联的所有多元索引的列表信息,您可以使用列出多元索引列表功能实现。具体操作,请参见列出多元索引列表。
如果要查询多元索引的描述信息,包括多元索引的字段信息和索引配置等,您可以使用查询多元索引描述信息功能实现。具体操作,请参见查询多元索引描述信息。
如果不再需要使用多元索引,您可以删除多元索引。具体操作,请参见删除多元索引。