Python / SQL / Excel У меня 12 наборов данных, и я хочу объединить их в один репрезентативный набор

Я пытаюсь создать прогнозную кривую, используя 12 различных наборов эмпирических данных. По сути, я хочу написать функцию, которая передает 2 переменные (количество приложений, дни) и генерирует прогнозную кривую на основе 12 наборов данных, которые у меня есть. Все наборы данных имеют 60 дней и количество заявок от 500 до 100 000.

Я не совсем уверен в том, какой будет лучший подход, я подумал, может быть, взять средний процент от общего числа заявок за каждый день (например: в день 1 в среднем было выпущено 3% от общего числа заявок, в день 10 в среднем там 10% и т. д.) было бы хорошим местом для начала, но я не уверен, что это лучший подход.

В моем распоряжении есть python, SQL и excel, но я не обязательно ищу конкретное решение, а просто общее предложение по подходу. Любая помощь приветствуется!

Зависит от того, что вы пытаетесь предсказать и с какими предположениями. С одной стороны, вы пытаетесь предсказать каждую в отдельности, и каждая из них генерируется разными и независимыми процессами, и в этом случае создайте 12 разных моделей. С другой стороны, вы видите их все как зашумленные меры одного и того же, что вы пытаетесь предсказать, и в этом случае да, среднее значение в пределах временной точки имеет смысл (в идеале, когда каждая серия взвешивается по ее очевидной надежности. ). Самое сложное место - это золотая середина между этими крайностями, где они различны, но, возможно, даже взаимодействуют друг с другом.

DHW 14.09.2018 17:08

@DHW, каждый из 12 отличается, они просто различаются в зависимости от местоположения, но на данном этапе мы просто ищем что-то очень простое, поэтому я думаю, что буду двигаться дальше со средними значениями. Считаете ли вы, что медиана или среднее значение более репрезентативны? это имеет большое значение?

DBA108642 14.09.2018 17:15

Это не моя основная рулевая рубка, но это похоже на данные поперечного сечения временных рядов (TSCS), если вы сложите их в набор данных 12x60.

DHW 14.09.2018 17:29
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
3
22
1

Ответы 1

Похоже, вы хотите разбить все это на (60 * 12) строк с 3 столбцами: один записывает номер приложения, другой записывает время, а другой записывает местоположение. Затем модель могла бы подставить каждое местоположение в качестве предиктора, и вы могли бы сгенерировать 12 смоделированных прогнозов с неопределенностью. Затем, чтобы получить один общий прогноз, вместо этого усредните эти прогнозы - начните использовать, а затем объедините прогнозы, если хотите. Модельное время, как вы хотите - авторегрессия, фильтр Калмана, ближайший сосед (хотя для этого, вероятно, недостаточно данных). Просто не пытайтесь использовать каждую временную точку по отдельности, иначе у вас будет идеально подходящая модель.

Но помните о возможной вселенной взаимодействий между локациями, которые вы можете смоделировать здесь. Вытеснение их всех предполагает отсутствие взаимодействия между ними или хотя бы одним из тех, которые вам небезразличны, или которые касаются всего, что вам небезразлично. Он просто учитывает фиксированные эффекты, то есть вы предполагаете, что динамика времени в каждом месте одинакова, просто в некоторых местах в целом и в среднем количество приложений выше, чем в других. Вы можете получить массу предикторов, относящихся к любому заданному местоположению, на основе номеров приложений в другом месте (ах) - текущий номер, прошлый номер и т. д. Все зависит от того, что вы считаете возможным и информативным для учета.

Другие вопросы по теме