Я читаю путь к файлу из одного индекса с именем documents из этого пути к файлу и читаю файл и индексирую содержимое этого файла в другом индексе с именем documents_attachment с использованием кода Java.
поэтому во время первого процесса я не могу получить больше, чем записи 10 за раз, он дает только записи 10 из
индекс document. В моем индексе 100000 больше, чем записей doucment.
Как я могу получить все записи 100000 за раз.
Я пробовал с searchSourceBuilder.size(10000);, а затем его индексирование до тех пор, пока 10K не записывает больше, и этот метод не позволяет мне указать размер больше, чем 10000.
Пожалуйста, найдите мой Java-код, который я использую ниже.
public class DocumentIndex {
private final static String INDEX = "documents";
private final static String ATTACHMENT = "document_attachment";
private final static String TYPE = "doc";
private static final Logger logger = Logger.getLogger(Thread.currentThread().getStackTrace()[0].getClassName());
public static void main(String args[]) throws IOException {
RestHighLevelClient restHighLevelClient = null;
Document doc=new Document();
logger.info("Started Indexing the Document.....");
try {
restHighLevelClient = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http"),
new HttpHost("localhost", 9201, "http")));
} catch (Exception e) {
System.out.println(e.getMessage());
}
//Fetching Id, FilePath & FileName from Document Index.
SearchRequest searchRequest = new SearchRequest(INDEX);
searchRequest.types(TYPE);
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
QueryBuilder qb = QueryBuilders.matchAllQuery();
searchSourceBuilder.query(qb);
//searchSourceBuilder.size(10000);
searchRequest.source(searchSourceBuilder);
SearchResponse searchResponse = null;
try {
searchResponse = restHighLevelClient.search(searchRequest);
} catch (IOException e) {
e.getLocalizedMessage();
}
SearchHit[] searchHits = searchResponse.getHits().getHits();
long totalHits=searchResponse.getHits().totalHits;
logger.info("Total Hits --->"+totalHits);
File all_files_path = new File("d:\\All_Files_Path.txt");
File available_files = new File("d:\\Available_Files.txt");
File missing_files = new File("d:\\Missing_Files.txt");
all_files_path.deleteOnExit();
available_files.deleteOnExit();
missing_files.deleteOnExit();
all_files_path.createNewFile();
available_files.createNewFile();
missing_files.createNewFile();
int totalFilePath=1;
int totalAvailableFile=1;
int missingFilecount=1;
Map<String, Object> jsonMap ;
for (SearchHit hit : searchHits) {
String encodedfile = null;
File file=null;
Map<String, Object> sourceAsMap = hit.getSourceAsMap();
if (sourceAsMap != null) {
doc.setId((int) sourceAsMap.get("id"));
doc.setApp_language(String.valueOf(sourceAsMap.get("app_language")));
}
String filepath=doc.getPath().concat(doc.getFilename());
try(PrintWriter out = new PrintWriter(new FileOutputStream(all_files_path, true)) ){
out.println("FilePath Count ---"+totalFilePath+":::::::ID---> "+doc.getId()+"File Path --->"+filepath);
}
file = new File(filepath);
if (file.exists() && !file.isDirectory()) {
try {
try(PrintWriter out = new PrintWriter(new FileOutputStream(available_files, true)) ){
out.println("Available File Count --->"+totalAvailableFile+":::::::ID---> "+doc.getId()+"File Path --->"+filepath);
totalAvailableFile++;
}
FileInputStream fileInputStreamReader = new FileInputStream(file);
byte[] bytes = new byte[(int) file.length()];
fileInputStreamReader.read(bytes);
encodedfile = new String(Base64.getEncoder().encodeToString(bytes));
fileInputStreamReader.close();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
}
else
{
PrintWriter out = new PrintWriter(new FileOutputStream(missing_files, true));
out.close();
missingFilecount++;
}
jsonMap = new HashMap<>();
jsonMap.put("id", doc.getId());
jsonMap.put("app_language", doc.getApp_language());
jsonMap.put("fileContent", encodedfile);
String id=Long.toString(doc.getId());
IndexRequest request = new IndexRequest(ATTACHMENT, "doc", id )
.source(jsonMap)
.setPipeline(ATTACHMENT);
PrintStream printStream = new PrintStream(new File("d:\\exception.txt"));
try {
IndexResponse response = restHighLevelClient.index(request);
} catch(ElasticsearchException e) {
if (e.status() == RestStatus.CONFLICT) {
}
e.printStackTrace(printStream);
}
totalFilePath++;
}
logger.info("Indexing done.....");
}
}




Если у вас достаточно памяти, увеличьте настройку индекса index.max_result_window с 10000 до необходимого вам числа.
Однако обратите внимание, что это не будет масштабироваться бесконечно. Поисковые запросы занимают кучу памяти и время, пропорциональное размеру from +. Этот параметр используется для ограничения этой памяти, и у вас закончится память, если вы установите ее слишком высоко.
Самый простой способ установить это - через REST API:
PUT /my-index/_settings
{
"index" : {
"max_result_window" : 150000
}
}
Я обновил ответ примером того, как это установить.
Примечание. Если это нужно для копирования в другой индекс, вы можете вместо этого использовать API переиндексации: elastic.co/guide/en/elasticsearch/reference/current/…
На самом деле, мне нужно прочитать filepath из первого индекса (путь к файлу доступен в Oracle DB), затем с помощью filepath и прочитать фактический файл, который находится на моем локальном диске, затем мне нужно прикрепить содержимое файла в том же индексе ( если возможно). Я новичок в ES, поэтому создаю еще один индекс и прикрепляю содержимое файла в новый (второй) индекс.
Спасибо., Для меня это разовое мероприятие. Только один раз мне нужно получить записи
100Kи индексировать с другим именем. так что я могу следовать этому обряду подхода.? а где я могу этоindex.max_result_window: 150000установить? . В файлеelasticsearch.yml. ?