Большие общедоступные наборы данных?

Я ищу несколько больших общедоступных наборов данных, в частности:

Большой образец анонимных журналов веб-сервера.
Наборы данных, используемые для тестирования производительности базы данных.

Приветствуются любые другие ссылки на большие общедоступные наборы данных. Я уже знаю об общедоступных наборах данных Amazon по адресу: http://aws.amazon.com/publicdatasets/

Определите, пожалуйста, "большой"? 1 миллион строк? 1 ГБ? 1 ТБ? 1 ПБ? Более?

— 29.04.2012 01:21

Полезны ли эти данные для анализа журнала доступа?

— 29.12.2015 16:12

Вы можете найти некоторые интересные наборы данных от NLP, NER до Image Classification, Bounding здесь: dataturks.com/projects/trending

— 07.06.2018 20:02

database performance dataset benchmarking

19.12.2008 21:37

ReactJs | Supabase | Добавление данных в базу данных

Это и есть ваш редактор таблиц в supabase.👇

45 555

Ответы 12

Что ж, что касается журналов веб-сервера, вы всегда можете просто сгенерировать их для нужного вам формата. Если вы собираетесь протестировать код против него и т. д., Он должен быть адаптирован к полям, которые вы хотите сохранить / проанализировать.

Для наборов данных, используемых для тестирования производительности базы данных, вы, вероятно, захотите найти инструмент, который может генерировать данные для вас. У Red Gate есть отличный за не слишком большие деньги.

19.12.2008 21:42

Просто мысль:

База данных географических названий USGS
Контрольный список USDA PLANTS
Любой из множества государственных репозиториев ГИС, например NH's ГРАНИТ

19.12.2008 22:17

В Google Fusion Tables их несколько.

http://tables.googlelabs.com/

26.05.2010 02:35

http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

30.03.2012 08:04

Я удивлен, что никто не упомянул Google N-Grams. Подробнее о N-Grams на http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

19.04.2012 08:50

1. Large sample web server logs that have been anonymized.

Эти работы для начала:

Репозиторий машинного обучения UCI

Доступно гораздо больше наборов данных, чем эти (см. Спектр других ответов), но это самый низкий висячий плод, который соответствует вашим исходным критериям. В качестве бонуса у них есть контактная ссылка, если у вас есть особые потребности, о которых они могут знать.

2. Datasets used for database performance benchmarking.

Это звучит неправильно, потому что вы запрашиваете наборы эмпирических данных, которые описывают четко определенный алгоритмический проблемы. В частности, похоже, что вы пытаетесь найти наборы данных, которые можно использовать для тестирования и тестирования различных систем баз данных в реальном времени, используя четко определенные, нормализованные реляционные данные, которые можно использовать в качестве набора тестовых примеров для определения наиболее эффективное решение, отвечающее вашим потребностям.

Я не согласен с таким подходом. Вместо того, чтобы искать множество систем баз данных и их готовых реализаций, гораздо лучше изучить алгоритмический гарантии этих систем в качестве вашего первого порта захода. После того, как вы определили алгоритмические ограничения, которые соответствуют вашим потребностям, вы можете отточить набор готовых решений, которые вы можете оценить по эффективности, например, индексации, сортировки, поиска, вставки, удаления и извлечения.

В Википедии есть краткая статья о концепциях тестирования баз данных, который можно использовать для определения и написания тестовых примеров для оценки производительности. Например, вы можете использовать независимый интерфейс доступа к данным, такой как JDBC и Тест JDBC, для определения относительного времени каждой операции. Отсюда вы можете найти правильное решение.

Коротко, сначала перейдите к исследование для определения гарантий базы данных. После определения набора возможных решений вы можете выбрать среди них, протестировав (или иным образом определив) постоянную временную производительность каждой желаемой операции.

Да, это устаревшая тема, но она заслуживает более актуального ответа на обе части вопроса. Удачи всем, кто сочтет это полезным указателем на правильное решение в будущем.

— 23.04.2012 23:53

критерии, используемые для награждения: наибольшие усилия. ни один из ответов не был особенно хорош сам по себе (и я не ожидал, что там будут хорошие ответы), но я рад, что в общей сложности в теме было больше ответов.

— 29.04.2012 22:03

23.04.2012 23:51

Возможно, некоторые базы данных используются в качестве обучающих наборов для алгоритмов распознавания лиц: face-rec.org

24.04.2012 04:20

Вот несколько. Повеселись.

http://archive.ics.uci.edu/ml/

http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

http://crawdad.org/

http://data.austintexas.gov

http://data.cityofchicago.org

http://data.govloop.com

http://data.gov.uk/

http://data.medicare.gov

http://data.seattle.gov

http://data.sfgov.org

http://data.sunlightlabs.com

https://datamarket.azure.com/

http://ftp.ncbi.nih.gov/

http://gettingpastgo.socrata.com

http://books.google.com/ngrams/

http://linkeddata.org/

http://medihal.archives-ouvertes.fr

http://public.resource.org/

http://rechercheisidore.fr

http://reddit.com/r/datasets

http://timetric.com/public-data/

http://www2.jpl.nasa.gov/srtm

http://www.bls.gov/

http://www.crunchbase.com/

http://www.dartmouthatlas.org/

http://www.data.gov/

http://www.datakc.org

http://www.factual.com/

http://www.freebase.com/

http://www.infochimps.com

http://www.kaggle.com/

http://build.kiva.org/

http://www.imdb.com/interfaces

http://dbpedia.org

Можете ли вы направить меня к каким-либо данным прокси?

— 29.12.2015 16:16

25.04.2012 01:46

Также доступны наборы данных здесь.

27.04.2012 05:49

Что ж, это новинка, и за ней стоит проблема:

Задача с набором данных на миллион песен

27.04.2012 20:24

Kaggle.com часто сталкивается с проблемами сбора данных. Наборы данных охватывают широкий спектр областей: от данных поставщика медицинских услуг до информации о кредитной истории. Возможно, что-то есть то, что вам нужно.

27.04.2012 22:31

http://Quandl.com содержит более 10 миллионов наборов данных, собранных со всего Интернета. Самое замечательное в этом ресурсе то, что он дает единый способ доступа ко всем данным. На сайте есть бесплатный плагин для Excel или есть библиотеки на R, Python, Ruby и т. д.

03.10.2014 04:09

Другие вопросы по теме

Эффективность NHibernate

Вставить сбой, затем обновить ИЛИ Загрузить, а затем решить, вставить или обновить

Как лучше всего измерить время выполнения функции?

Моно производительность

Неожиданное увеличение скорости SQL

Насколько медленнее wxWidget, написанный на Python, по сравнению с C++?

C# Именованные параметры в строку, которая заменяет значения параметров

Задача обновления Subversion Ant занимает вечность

Есть ли у кого-нибудь опыт работы с SSEPlus?

Эффективная замена строки Javascript

Большие общедоступные наборы данных?

Ответы 12

Другие вопросы по теме

Похожие вопросы