Elasticsearch не может получить более 10 документов с помощью Java API Query

Я читаю путь к файлу из одного индекса с именем documents из этого пути к файлу и читаю файл и индексирую содержимое этого файла в другом индексе с именем documents_attachment с использованием кода Java.

поэтому во время первого процесса я не могу получить больше, чем записи 10 за раз, он дает только записи 10 из индекс document. В моем индексе 100000 больше, чем записей doucment.

Как я могу получить все записи 100000 за раз.

Я пробовал с searchSourceBuilder.size(10000);, а затем его индексирование до тех пор, пока 10K не записывает больше, и этот метод не позволяет мне указать размер больше, чем 10000.

Пожалуйста, найдите мой Java-код, который я использую ниже.

public class DocumentIndex {

private final static String INDEX = "documents";  
private final static String ATTACHMENT = "document_attachment"; 
private final static String TYPE = "doc";
private static final Logger logger = Logger.getLogger(Thread.currentThread().getStackTrace()[0].getClassName());

public static void main(String args[]) throws IOException {


    RestHighLevelClient restHighLevelClient = null;
    Document doc=new Document();

    logger.info("Started Indexing the Document.....");

    try {
        restHighLevelClient = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http"),
                new HttpHost("localhost", 9201, "http")));
    } catch (Exception e) {
        System.out.println(e.getMessage());
    }


    //Fetching Id, FilePath & FileName from Document Index. 
    SearchRequest searchRequest = new SearchRequest(INDEX); 
    searchRequest.types(TYPE);
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    QueryBuilder qb = QueryBuilders.matchAllQuery();
    searchSourceBuilder.query(qb);
    //searchSourceBuilder.size(10000); 
    searchRequest.source(searchSourceBuilder);
    SearchResponse searchResponse = null;
    try {
         searchResponse = restHighLevelClient.search(searchRequest);
    } catch (IOException e) {
        e.getLocalizedMessage();
    }

    SearchHit[] searchHits = searchResponse.getHits().getHits();
    long totalHits=searchResponse.getHits().totalHits;
    logger.info("Total Hits --->"+totalHits);


    File all_files_path = new File("d:\\All_Files_Path.txt");
    File available_files = new File("d:\\Available_Files.txt");
    File missing_files = new File("d:\\Missing_Files.txt");
    all_files_path.deleteOnExit();
    available_files.deleteOnExit();
    missing_files.deleteOnExit();
    all_files_path.createNewFile();
    available_files.createNewFile();
    missing_files.createNewFile();

    int totalFilePath=1;
    int totalAvailableFile=1;
    int missingFilecount=1;

    Map<String, Object> jsonMap ;
    for (SearchHit hit : searchHits) {

        String encodedfile = null;
        File file=null;

        Map<String, Object> sourceAsMap = hit.getSourceAsMap();


        if (sourceAsMap != null) {  
            doc.setId((int) sourceAsMap.get("id"));
            doc.setApp_language(String.valueOf(sourceAsMap.get("app_language")));
        }

        String filepath=doc.getPath().concat(doc.getFilename());



        try(PrintWriter out = new PrintWriter(new FileOutputStream(all_files_path, true))  ){
            out.println("FilePath Count ---"+totalFilePath+":::::::ID---> "+doc.getId()+"File Path --->"+filepath);
        }

        file = new File(filepath);
        if (file.exists() && !file.isDirectory()) {
            try {
                  try(PrintWriter out = new PrintWriter(new FileOutputStream(available_files, true))  ){
                        out.println("Available File Count --->"+totalAvailableFile+":::::::ID---> "+doc.getId()+"File Path --->"+filepath);
                        totalAvailableFile++;
                    }
                FileInputStream fileInputStreamReader = new FileInputStream(file);
                byte[] bytes = new byte[(int) file.length()];
                fileInputStreamReader.read(bytes);
                encodedfile = new String(Base64.getEncoder().encodeToString(bytes));
                fileInputStreamReader.close();
            } catch (FileNotFoundException e) {
                e.printStackTrace();
            }
        }
        else
        {
            PrintWriter out = new PrintWriter(new FileOutputStream(missing_files, true));
            out.close();
            missingFilecount++;
        }

        jsonMap = new HashMap<>();
        jsonMap.put("id", doc.getId());
        jsonMap.put("app_language", doc.getApp_language());
        jsonMap.put("fileContent", encodedfile);

        String id=Long.toString(doc.getId());

        IndexRequest request = new IndexRequest(ATTACHMENT, "doc", id )
                .source(jsonMap)
                .setPipeline(ATTACHMENT);

        PrintStream printStream = new PrintStream(new File("d:\\exception.txt"));
        try {
            IndexResponse response = restHighLevelClient.index(request);

        } catch(ElasticsearchException e) {
            if (e.status() == RestStatus.CONFLICT) {
            }
            e.printStackTrace(printStream);
        }

        totalFilePath++;


    }

    logger.info("Indexing done.....");
}

}

java elasticsearch elastic-stack

12.07.2018 13:57

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

723

Ответы 1

Если у вас достаточно памяти, увеличьте настройку индекса index.max_result_window с 10000 до необходимого вам числа.

См. https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules.html#dynamic-index-settings

Однако обратите внимание, что это не будет масштабироваться бесконечно. Поисковые запросы занимают кучу памяти и время, пропорциональное размеру from +. Этот параметр используется для ограничения этой памяти, и у вас закончится память, если вы установите ее слишком высоко.

Самый простой способ установить это - через REST API:

PUT /my-index/_settings
{
    "index" : {
        "max_result_window" : 150000
    }
}

Спасибо., Для меня это разовое мероприятие. Только один раз мне нужно получить записи 100K и индексировать с другим именем. так что я могу следовать этому обряду подхода.? а где я могу это index.max_result_window: 150000 установить? . В файле elasticsearch.yml. ?

— 12.07.2018 15:31

Я обновил ответ примером того, как это установить.

— 12.07.2018 16:43

Примечание. Если это нужно для копирования в другой индекс, вы можете вместо этого использовать API переиндексации: elastic.co/guide/en/elasticsearch/reference/current/…

— 12.07.2018 16:54

На самом деле, мне нужно прочитать filepath из первого индекса (путь к файлу доступен в Oracle DB), затем с помощью filepath и прочитать фактический файл, который находится на моем локальном диске, затем мне нужно прикрепить содержимое файла в том же индексе ( если возможно). Я новичок в ES, поэтому создаю еще один индекс и прикрепляю содержимое файла в новый (второй) индекс.

— 12.07.2018 17:54

12.07.2018 14:07