Это своего рода вопрос «большие данные с веб-сервисами Amazon»: рассмотрите огромный набор текстовых файлов (все с одним и тем же форматом содержимого внутри: [title; body; author]). Я хочу хранить их в AWS и иметь возможность искать подстроку во всем наборе. Что было бы для этого хорошим подходом. Я также хотел бы поблагодарить советы о том, как хранить все эти данные вместо файлов txt (речь идет о статьях с заголовком, телом и автором).
Спасибо.
Это только текст, тогда почему бы не хранить и не искать с помощью AWS Elasticsearch aws.amazon.com/elasticsearch-service
Насколько велик ваш размер данных (ГБ, ТБ, ПБ)? Насколько быстро вы ожидаете результатов (доли секунды, секунды, минуты)? Сколько одновременных запросов (один, тысячи)? Каковы ваши технические навыки (SQL, языки, Hadoop)?
Я бы посоветовал хотя бы преобразовать указанный файл в формат Parquet или ORC, тогда запросы Athena будут быстрыми. В противном случае вставьте данные в RDS или Redshift





Я не эксперт по большим данным, но, возможно, вы ищете EMR (Elastic Map Reduce) в AWS. Ознакомьтесь с его документацией здесь