配置索引实现日志的查询和分析 - 日志服务

如需对采集到Logstore中的日志进行查询和分析，则必须创建索引。本文为您介绍日志服务索引概念、索引类型、创建索引、关闭索引、配置示例和计费说明等。

为什么需要创建索引

通常我们使用关键词从原始日志中检索想要的内容，例如包含curl的日志：curl/7.74.0。如果不进行切分，该日志文本会作为一个整体，不能和关键词curl完全对应，因此不会被日志服务检索到。

为了便于检索，需要将日志切分成独立、可搜索的词。日志切分由分词符实现，这些符号决定了日志文本内容被切分的位置。以该日志为例，使用分词符\n\t\r,;[]{}()&^*#@~=<>/\?:'"进行分割，得到的词是curl、7.74.0。日志服务基于切分出的关键词建立索引。创建索引后，您才能对日志进行查询和分析。

日志服务Project支持创建全文索引和字段索引。如果您同时创建了全文索引和字段索引，以字段索引的配置为准。

索引类型

全文索引

全文索引根据分词符直接将整个日志切分成多个text类型的词语。创建全文索引后，可以通过关键词进行查询，例如查询语句：Chrome or Safari ，查询包括Chrome或Safari的日志。

重要

分词符不支持中文，开启包含中文选项，日志服务会自动按照中文分词。
如果只配置全文索引，则只能使用全文查询功能。更多信息，请参见查询语法与功能。

字段索引

字段索引将日志根据字段名称（KEY）进行区分，然后在字段内使用分词符进行分割。字段索引支持text、long、double和JSON四种类型的数据。更多信息，请参见数据类型。创建字段索引后，可以指定字段名称和字段值（Key:Value）进行查询，也可以使用SELECT语句。更多信息，请参见字段查询。

重要

如需对字段进行查询或分析（SELECT语句），必须创建字段索引。字段索引的优先级高于全文索引，如果同时创建了全文索引和字段索引，以字段索引的配置为准。
text类型的字段，可以使用全文查询语句、字段查询语句和分析语句（SELECT）。
- 如果未开启全文索引，全文查询语句是从所有text类型的字段中查询结果。
- 如果已开启全文索引，全文查询语句是从所有日志中查询结果。
long和double类型的字段，可以使用字段查询语句和分析语句（SELECT）进行查询和分析。

创建索引

重要

不同的索引配置，会产生不同的查询和分析结果，请根据您的需求，合理创建索引。创建索引后需要大约一分钟生效。
创建索引只对增量日志有效。如需查询历史日志，请使用重建索引功能。
日志服务已为部分保留字段创建索引。更多信息，请参见保留字段。
其中__topic__和__source__的索引分词符为空，查询这两个字段时，关键字必须完全匹配。
__tag__为前缀的字段不支持全文索引。您需要创建字段索引后，才能执行查询和分析操作，例如*| select "__tag__:__receive_time__"。
日志中存在同名字段（例如都为request_time）时，日志服务会将其中一个字段名显示为request_time_0，底层存储的字段名仍为request_time。因此在创建索引、查询、分析、投递、加工时，只能使用原始字段名request_time。

控制台方式

登录日志服务控制台。
在Project列表区域，单击目标Project。
在日志存储 > 日志库页签中，单击目标Logstore。
在Logstore的查询和分析页面，单击开启索引。
说明
开启后等待1min左右即可查询最新数据。
（可选）关闭自动更新索引
当Logstore为云产品专属Logstore或内部Logstore时，默认打开索引自动更新开关，后续如有版本更新时可以升级到内置索引最新版本。如果需要创建索引，请在查询分析面板中，关闭自动更新开关。
警告
删除云产品专属Logstore的索引会影响相关报表、告警等功能的使用。

创建索引

创建全文索引

单击开启索引后，全文索引开关默认打开。您可根据需要选择是否打开日志聚类、大小写敏感、包含中文功能，也可选择指定分词符或自定义分词符。

页面配置如下所示：

配置项说明如下所示：

参数	说明
日志聚类	打开日志聚类开关后，日志服务在采集文本日志时会自动聚合相似度高的日志，提取共同的日志模式，帮助您快速掌握日志整体情况。更多信息，请参见日志聚类。
大小写敏感	查询时是否区分英文字母的大小写。打开大小写敏感开关，则查询时区分大小写。例如某条日志含有`internalError`，那么您只能使用`internalError`才能查询到该日志。关闭大小写敏感开关，则查询时不区分大小写。例如某条日志含有`internalError`，那么您使用关键字`INTERNALERROR`和`internalerror`都能查到该日志。
包含中文	查询时是否区分中英文。打开包含中文开关后，如果日志中包含中文，则按照中文语法拆分中文内容，按照分词符的设置拆分英文内容。重要中文分词对写入速度会有一定影响，请根据需求谨慎设置。关闭包含中文开关后，按照分词符的设置拆分所有内容。
分词符	根据指定分词符，将日志内容拆分成多个词。日志服务的默认分词符为`, '";=()[]{}?@&<>/:\n\t\r`。当默认设置不能满足您的需求时，您可以自定义设置分词符。所有的ASCII码都可被定义为分词符。如果设置分词符为空，则字段值将被当成一个整体，您只能通过完整字符串或模糊查询查找对应的日志。例如日志内容为`/url/pic/abc.gif`。如果不设置任何分词符，整条日志被作为一个词`/url/pic/abc.gif`，您只能通过完整字符串`/url/pic/abc.gif`或模糊查询`/url/pic/`查找该日志。如果设置分词符为正斜线（/），则原始日志被拆分为`url`、`pic`和`abc.gif`三个词，您通过任意一个词或词的模糊查询都可以找到该日志，例如`url`、`abc.gif`、`pi`、`/url/pic/abc.gif`。如果设置分词符为正斜线（/）和半角句号（.），则原始日志被拆分为`url`、`pic`、`abc`和`gif`四个词，您通过任意一个词或词的模糊查询都可以找到该日志。

创建字段索引

单击开启索引后。您可在查询分析页面单击自动生成索引。日志服务会根据采集时预览数据中的第一条内容，自动生成字段索引。如需自定义字段索引，可单击页面下方的+创建，具体字段说明请参见配置项说明。

首次打开时页面如下所示：

字段索引配置项如下所示：

配置项说明如下所示：

参数	说明
字段名称	日志字段名称（KEY），例如`client_ip`。字段名称只能包括字母、数字或下划线（_），且只能以字母或下划线（_）开头。重要设置公网IP地址、Unix时间戳等`__tag__`字段的索引时，需设置字段名称为`__tag__:KEY`形式，例如`__tag__:__receive_time__`。更多信息，请参见保留字段。 `__tag__`字段不支持数值类型索引，请将所有`__tag__`字段的索引的类型设置为text。
类型	日志字段值（Value）的数据类型，可选值为text、long、double和json。更多信息，请参见数据类型。 long和double类型不支持设置大小写敏感、包含中文和分词符。
别名	字段的别名，例如设置`client_ip`字段的别名为`ip`。字段别名只能包括字母、数字或下划线（_），且只能以字母或下划线（_）开头。重要别名仅用于分析语句（SELECT语句），查询语句中仍需使用原始字段名称。更多信息，请参见列的别名。
大小写敏感	查询时是否区分英文字母的大小写。打开大小写敏感开关，则查询时区分大小写。例如某条日志含有`internalError`，那么您只能使用`internalError`才能查询到该日志。关闭大小写敏感开关，则查询时不区分大小写。例如某条日志含有`internalError`，那么您使用关键字`INTERNALERROR`和`internalerror`都能查到该日志。
分词符	根据指定分词符，将日志内容拆分成多个词。日志服务的默认分词符为`, '";=()[]{}?@&<>/:\n\t\r`。当默认设置不能满足您的需求时，您可以自定义设置分词符。所有的ASCII码都可被定义为分词符。如果设置分词符为空，则字段值将被当成一个整体，您只能通过完整字符串或模糊查询查找对应的日志。例如日志内容为`/url/pic/abc.gif`。如果不设置任何分词符，整条日志被作为一个词`/url/pic/abc.gif`，您只能通过完整字符串`/url/pic/abc.gif`或模糊查询`/url/pic/`查找该日志。如果设置分词符为正斜线（/），则原始日志被拆分为`url`、`pic`和`abc.gif`三个词，您通过任意一个词或词的模糊查询都可以找到该日志，例如`url`、`abc.gif`、`pi`、`/url/pic/abc.gif`。如果设置分词符为正斜线（/）和半角句号（.），则原始日志被拆分为`url`、`pic`、`abc`和`gif`四个词，您通过任意一个词或词的模糊查询都可以找到该日志。
包含中文	查询时是否区分中英文。打开包含中文开关后，如果日志中包含中文，则按照中文语法拆分中文内容，按照分词符的设置拆分英文内容。重要中文分词对写入速度会有一定影响，请根据需求谨慎设置。关闭包含中文开关后，按照分词符的设置拆分所有内容。
开启统计	打开开启统计功能后，您才能对该字段进行统计分析。

（可选）设置字段的最大长度
SQL分析过程中，默认为截取一定长度，日志服务的默认配置为2048字节，即2KB。如果您需要修改字段值的最大长度，可在查询分析页面底部设置统计字段（text）最大长度，取值范围为64~16384字节。
重要
- 更新索引配置只对增量数据有效。
- 如果单个字段值长度超过最大长度，超出部分将被截断，不参与分析。

API方式

日志服务支持通过API方式管理索引。具体操作，请参见：

SDK方式

日志服务支持通过多语言SDK进行索引管理，以下列举一些常用的SDK。更多信息，请参见SDK参考概述。

Java

使用日志服务Java SDK方式管理索引的具体操作，请参见使用Java SDK管理索引。

Python

使用日志服务Python SDK方式管理索引的具体操作，请参见使用Python SDK管理索引。

日志服务除自研的SDK外，还支持公共的阿里云SDK，关于阿里云SDK的使用方式，请参见日志服务_SDK中心-阿里云OpenAPI开发者门户。

CLI方式

日志服务提供命令行工具CLI（Command Line Interface）管理索引。具体操作，请参见：

更新索引

操作步骤

在目标Logstore的查询和分析页面，选择查询分析属性 > 属性。不同的索引配置，会产生不同的查询和分析结果，请根据您的需求，合理更新索引。更新索引后需要大约一分钟生效。

关闭索引

重要

关闭索引后，历史索引的存储空间将在当前Logstore的数据保存时间到期后，自动被清除。

操作步骤

在目标Logstore的查询和分析页面，选择查询分析属性 > 关闭索引。

索引配置示例

示例1

日志内容中有request_time字段，执行字段查询语句request_time>100。

只建立全文索引，返回同时包含request_time、>（非分词符）、100这三个词的日志。
只建立double、long类型的字段索引，返回结果是request_time大于100的日志。
建立全文索引和double、long类型的字段索引，request_time的全文索引失效，返回结果是request_time大于100的日志。

示例2

日志内容中有request_time字段，执行全文查询语句request_time。

只建立double、long类型的字段索引，无法查询到相关日志。
只建立全文索引，从所有日志文本中查询包括request_time的日志。
只建立text类型的字段索引，从字段索引是text类型的字段中查询包括request_time的日志。

示例3

日志内容中有status字段，执行分析语句* | SELECT status, count(*) AS PV GROUP BY status。

只建立全文索引，无法查询到相关日志。
为status建立字段索引，返回结果是不同的状态码及对应的PV总数。

索引流量说明

全文索引

所有字段名和字段值都将作为text类型存储，即字段名和字段值都被计入索引流量。

字段索引

不同数据类型的字段的索引流量计算方式不同。

text类型：字段名和字段值都被计入索引流量中。
long类型和double类型：字段名不计入索引流量中，每个字段值所占的索引流量统一为8字节。
例如对status字段设置了索引（long类型），字段值为200，则字符串status不会被计入在索引流量中，200的索引流量统一为8字节。
JSON类型：字段名和字段值都被计入到索引流量中，包括未被创建索引的子节点。更多信息，请参见如何计算JSON类型字段的索引流量。
- 如果未对子节点设置索引，则其索引流量按照text类型进行计算。
- 如果对子节点设置了索引，则其索引流量按照其子节点数据类型（text、long或double）进行计算。

计费说明

按写入数据量计费的logstore

创建的索引会占用存储空间，存储类型请参见管理智能存储分层。
重建索引不产生费用。
索引流量计费请参见按写入数据量计费模式计费项。

按使用功能计费的logstore

创建的索引会占用存储空间，存储类型请参见管理智能存储分层。
创建索引会产生流量，索引流量计费请参见按使用功能计费模式计费项中的索引流量-日志索引和索引流量-日志索引-查询型。降低索引流量的建议，请参见如何降低索引流量费用？。
重建索引会产生费用。计费项、计费价格和创建索引相同。

后续步骤

常见问题

为什么导入日志后查询不到日志？
- 检查已设置的分词符是否符合要求。
- 索引配置只对新增日志生效，如果您要查询和分析历史数据，请使用重建索引功能。具体操作，请参见重建索引。
如何完成双重条件查询？
需要使用两个条件查询日志时，只需同时输入两个语句即可。需要在Logstore中查询数据状态不是OK或者Unknown的日志。直接搜索not OK not Unknown即可得到符合条件的日志。
如何查询包括包含多个关键字的日志？
以查询http_user_agent字段值中包含like Gecko的日志为例。
- 短语查询。http_user_agent:#"like Gecko"。短语查询
- like语法。* | Select * where http_user_agent like '%like Gecko%'
如何在日志中搜索包含空格的关键字？
例如，当您搜索POS version时，会得到包含POS或者version的所有日志。如果使用双引号包裹，例如“POS version”，则会得到包含关键字POS version的所有日志。
日志查询常见问题
查询与分析日志的常见报错
如何模糊查询日志？
查询和分析JSON日志的常见问题
如何将日志下载到本地
为什么查询和分析时，字段值会被截断？