Большие общедоступные наборы данных?

Я ищу несколько больших общедоступных наборов данных, в частности:

  1. Большой образец анонимных журналов веб-сервера.

  2. Наборы данных, используемые для тестирования производительности базы данных.

Приветствуются любые другие ссылки на большие общедоступные наборы данных. Я уже знаю об общедоступных наборах данных Amazon по адресу: http://aws.amazon.com/publicdatasets/

Определите, пожалуйста, "большой"? 1 миллион строк? 1 ГБ? 1 ТБ? 1 ПБ? Более?

GreyCat 29.04.2012 01:21

Полезны ли эти данные для анализа журнала доступа?

NIMISHAN 29.12.2015 16:12

Вы можете найти некоторые интересные наборы данных от NLP, NER до Image Classification, Bounding здесь: dataturks.com/projects/trending

NooB8374 07.06.2018 20:02
ReactJs | Supabase | Добавление данных в базу данных
ReactJs | Supabase | Добавление данных в базу данных
Это и есть ваш редактор таблиц в supabase.👇
67
3
45 555
12

Ответы 12

Что ж, что касается журналов веб-сервера, вы всегда можете просто сгенерировать их для нужного вам формата. Если вы собираетесь протестировать код против него и т. д., Он должен быть адаптирован к полям, которые вы хотите сохранить / проанализировать.

Для наборов данных, используемых для тестирования производительности базы данных, вы, вероятно, захотите найти инструмент, который может генерировать данные для вас. У Red Gate есть отличный за не слишком большие деньги.

Просто мысль:

В Google Fusion Tables их несколько.

http://tables.googlelabs.com/

Я удивлен, что никто не упомянул Google N-Grams. Подробнее о N-Grams на http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

1. Large sample web server logs that have been anonymized.

Эти работы для начала:

Доступно гораздо больше наборов данных, чем эти (см. Спектр других ответов), но это самый низкий висячий плод, который соответствует вашим исходным критериям. В качестве бонуса у них есть контактная ссылка, если у вас есть особые потребности, о которых они могут знать.

2. Datasets used for database performance benchmarking.

Это звучит неправильно, потому что вы запрашиваете наборы эмпирических данных, которые описывают четко определенныйалгоритмическийпроблемы. В частности, похоже, что вы пытаетесь найти наборы данных, которые можно использовать для тестирования и тестирования различных систем баз данных в реальном времени, используя четко определенные, нормализованные реляционные данные, которые можно использовать в качестве набора тестовых примеров для определения наиболее эффективное решение, отвечающее вашим потребностям.

Я не согласен с таким подходом. Вместо того, чтобы искать множество систем баз данных и их готовых реализаций, гораздо лучше изучить алгоритмическийгарантии этих систем в качестве вашего первого порта захода. После того, как вы определили алгоритмические ограничения, которые соответствуют вашим потребностям, вы можете отточить набор готовых решений, которые вы можете оценить по эффективности, например, индексации, сортировки, поиска, вставки, удаления и извлечения.

В Википедии есть краткая статья о концепциях тестирования баз данных, который можно использовать для определения и написания тестовых примеров для оценки производительности. Например, вы можете использовать независимый интерфейс доступа к данным, такой как JDBC и Тест JDBC, для определения относительного времени каждой операции. Отсюда вы можете найти правильное решение.

Коротко, сначала перейдите к исследование для определения гарантий базы данных. После определения набора возможных решений вы можете выбрать среди них, протестировав (или иным образом определив) постоянную временную производительность каждой желаемой операции.

Да, это устаревшая тема, но она заслуживает более актуального ответа на обе части вопроса. Удачи всем, кто сочтет это полезным указателем на правильное решение в будущем.

MrGomez 23.04.2012 23:53

критерии, используемые для награждения: наибольшие усилия. ни один из ответов не был особенно хорош сам по себе (и я не ожидал, что там будут хорошие ответы), но я рад, что в общей сложности в теме было больше ответов.

sethcall 29.04.2012 22:03

Возможно, некоторые базы данных используются в качестве обучающих наборов для алгоритмов распознавания лиц: face-rec.org

Также доступны наборы данных здесь.

Что ж, это новинка, и за ней стоит проблема:

Задача с набором данных на миллион песен

Kaggle.com часто сталкивается с проблемами сбора данных. Наборы данных охватывают широкий спектр областей: от данных поставщика медицинских услуг до информации о кредитной истории. Возможно, что-то есть то, что вам нужно.

http://Quandl.com содержит более 10 миллионов наборов данных, собранных со всего Интернета. Самое замечательное в этом ресурсе то, что он дает единый способ доступа ко всем данным. На сайте есть бесплатный плагин для Excel или есть библиотеки на R, Python, Ruby и т. д.

Другие вопросы по теме