Как лучше всего обрабатывать текст в AWS?

Это своего рода вопрос «большие данные с веб-сервисами Amazon»: рассмотрите огромный набор текстовых файлов (все с одним и тем же форматом содержимого внутри: [title; body; author]). Я хочу хранить их в AWS и иметь возможность искать подстроку во всем наборе. Что было бы для этого хорошим подходом. Я также хотел бы поблагодарить советы о том, как хранить все эти данные вместо файлов txt (речь идет о статьях с заголовком, телом и автором).

Спасибо.

Я не эксперт по большим данным, но, возможно, вы ищете EMR (Elastic Map Reduce) в AWS. Ознакомьтесь с его документацией здесь

— 01.08.2018 13:29

Это только текст, тогда почему бы не хранить и не искать с помощью AWS Elasticsearch aws.amazon.com/elasticsearch-service

— 01.08.2018 13:37

Насколько велик ваш размер данных (ГБ, ТБ, ПБ)? Насколько быстро вы ожидаете результатов (доли секунды, секунды, минуты)? Сколько одновременных запросов (один, тысячи)? Каковы ваши технические навыки (SQL, языки, Hadoop)?

— 01.08.2018 13:53

Я бы посоветовал хотя бы преобразовать указанный файл в формат Parquet или ORC, тогда запросы Athena будут быстрыми. В противном случае вставьте данные в RDS или Redshift

— 06.08.2018 14:37

amazon-web-services bigdata text-processing data-processing

01.08.2018 13:03

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...