全部产品
Search
文档中心

智能开放搜索 OpenSearch:scroll查询Demo

更新时间:Jul 20, 2023

配置环境变量

配置环境变量ALIBABA_CLOUD_ACCESS_KEY_IDALIBABA_CLOUD_ACCESS_KEY_SECRET

重要
  • 阿里云账号AccessKey拥有所有API的访问权限,建议您使用RAM用户进行API访问或日常运维,具体操作,请参见创建RAM用户

  • 创建AccessKey ID和AccessKey Secret,请参考创建AccessKey

  • 如果您使用的是RAM用户的AccessKey,请确保主账号已授权AliyunServiceRoleForOpenSearch服务关联角色,请参考OpenSearch-行业算法版服务关联角色,相关文档参考访问鉴权规则

  • 请不要将AccessKey ID和AccessKey Secret保存到工程代码里,否则可能导致AccessKey泄露,威胁您账号下所有资源的安全。

  • LinuxmacOS系统配置方法:

    执行以下命令,其中, <access_key_id>需替换为您RAM用户的AccessKey ID,<access_key_secret>替换为您RAM用户的AccessKey Secret。

    export ALIBABA_CLOUD_ACCESS_KEY_ID=<access_key_id> 
    export ALIBABA_CLOUD_ACCESS_KEY_SECRET=<access_key_secret>
  • Windows系统配置方法

    1. 新建环境变量文件,添加环境变量ALIBABA_CLOUD_ACCESS_KEY_IDALIBABA_CLOUD_ACCESS_KEY_SECRET,并写入已准备好的AccessKey ID和AccessKey Secret。

    2. 重启Windows系统生效。

V4.0.0 SDK Scroll搜索文档样例代码

scroll用法及场景

由于search的方法不能召回超过5000个结果,因此可以使用scroll方法,导出全部数据。

注意:

  • scroll仅支持导出所有数据,不支持Aggregate,Distinct,Rank子句。

  • scroll方法中的config子句start参数不起作用,默认为0. 即不支持跳页。hits限制为[0,500]。

  • 第一次执行时不返回文档数据,只返回scroll_id值,第二次调用查询时设置scroll_id,即返回数据。

搜索报错判断:用户需按code和message,进行异常情况判断,不要按status进行判断。code对应的错误信息查看——错误码文档

SDK样例Demo:

package com.aliyun.opensearch;

import com.aliyun.opensearch.OpenSearchClient;
import com.aliyun.opensearch.SearcherClient;
import com.aliyun.opensearch.sdk.dependencies.com.google.common.collect.Lists;
import com.aliyun.opensearch.sdk.dependencies.org.json.JSONObject;
import com.aliyun.opensearch.sdk.generated.OpenSearch;
import com.aliyun.opensearch.sdk.generated.commons.OpenSearchClientException;
import com.aliyun.opensearch.sdk.generated.commons.OpenSearchException;
import com.aliyun.opensearch.sdk.generated.search.*;
import com.aliyun.opensearch.sdk.generated.search.general.SearchResult;
import com.aliyun.opensearch.search.SearchParamsBuilder;
import java.nio.charset.Charset;

public class testScroll {

  //受引擎性能影响,Scroll不支持Aggregate,Distinct,Rank子句,支持单字段sort子句
  private static String appName = "替换为opensearch应用名";
  private static String host = "替换应用的API访问地址";

  public static void main(String[] args) {
    //用户识别信息
    //从环境变量读取配置的AccessKey ID和AccessKey Secret,运行代码示例前必须先配置环境变量
    String accesskey = System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");
    String secret = System.getenv("ALIBABA_CLOUD_ACCESS_KEY_SECRET");

    //查看文件和默认编码格式
    System.out.println(
      String.format("file.encoding: %s", System.getProperty("file.encoding"))
    );
    System.out.println(
      String.format("defaultCharset: %s", Charset.defaultCharset().name())
    );

    //创建并构造OpenSearch对象
    OpenSearch openSearch = new OpenSearch(accesskey, secret, host);

    //创建OpenSearchClient对象,并以OpenSearch对象作为构造参数
    OpenSearchClient serviceClient = new OpenSearchClient(openSearch);

    //创建SearcherClient对象,并以OpenSearchClient对象作为构造参数
    SearcherClient searcherClient = new SearcherClient(serviceClient);

    //定义Config对象,用于设定config子句参数,分页,数据返回格式,应用名等等
    Config config = new Config(Lists.newArrayList(appName));

    //config.setStart(start) scroll该参数不起作用,默认为0
    config.setHits(5); //设置每页为5条记录

    //设置返回格式为FULLJSON,目前scroll只支持返回JSON和FULLJSON格式
    config.setSearchFormat(SearchFormat.FULLJSON);

    // 设置搜索结果返回应用中哪些字段
    config.setFetchFields(
      Lists.newArrayList(
        "id",
        "name",
        "phone",
        "int_arr",
        "literal_arr",
        "float_arr",
        "cate_id"
      )
    );
    // 注意:config子句中的rerank_size参数,在Rank类对象中设置

    // 创建参数对象
    SearchParams searchParams = new SearchParams(config);

    // 设置查询子句,若需多个索引组合查询,需要setQuery处合并,否则若设置多个setQuery后面的会替换前面查询
    searchParams.setQuery("name:'opensearch'");

    // 设置查询过滤条件
    //searchParams.setFilter("cate_id<=3"); //此处也可改用后面的ParamsBuilder实现添加过滤条件

    // 设置sort条件
    Sort sorter = new Sort();
    sorter.addToSortFields(new SortField("id", Order.DECREASE)); //设置id字段降序

    //添加Sort对象参数
    searchParams.setSort(sorter);

    //设置scroll方式查询
    DeepPaging deep = new DeepPaging();
    //不设置默认为1m表示1分钟,该参数表示本次返回的scrollid的有效期
    deep.setScrollExpire("3m");

    //添加DeepPaging对象参数
    searchParams.setDeepPaging(deep);

    // SearchParams的工具类,提供了更为便捷的操作
    SearchParamsBuilder paramsBuilder = SearchParamsBuilder.create(
      searchParams
    );

    // 设置查询过滤条件
    //        paramsBuilder.addFilter("cate_id<=0", "AND");

    // 执行返回查询结果。用户需按code和message,进行异常情况判断,不要按status进行判断。code对应的错误信息查看——错误码文档。
    SearchResult searchResult;
    try {
      searchResult = searcherClient.execute(paramsBuilder);
      String result = searchResult.getResult();
      JSONObject obj = new JSONObject(result);

      // 假设数据库中只有25条,且每页展示5条,则第6次打印出来items数据为空
      for (int i = 1; i <= 6; i++) {
        //第一次执行不返回数据,主要返回scroll_id值,第二次调用查询时设置scroll_id
        deep.setScrollId(
          new JSONObject(obj.get("result").toString())
            .get("scroll_id")
            .toString()
        );
        deep.setScrollExpire("3m"); //不设置默认为1m表示1分钟,如不想使用默认值,每次重新调用前必须要重新设置下
        searchResult = searcherClient.execute(paramsBuilder);
        result = searchResult.getResult();
        obj = new JSONObject(result);

        // 输出查询结果
        System.out.println("第" + i + "次执行:" + obj.get("result"));
        try {
          Thread.sleep(1000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        } //休眠1秒,防止qps请求过高报错
      }
    } catch (OpenSearchException e) {
      e.printStackTrace();
    } catch (OpenSearchClientException e) {
      e.printStackTrace();
    }
  }
}