Такое ощущение, что это будет называться интеллектуальным анализом данных, когда вы просматриваете тонны данных, которые не сразу кажутся связанными, но показывают корреляцию после некоторых усилий.
Итак ... С чего мне начать изучать алгоритмы, концепции, теорию подобных вещей? Были бы полезны даже связанные термины для целей поиска.
Предыстория: Мне нравится кататься на ультрамарафоне на велосипеде, и я веду записи о каждой поездке. Я хотел бы сохранить больше данных и после сотен поездок получить информацию о том, как я выступаю.
Однако все меняется - маршруты, окружающая среда (температура, давление, гул, солнечная нагрузка, ветер, осадки и т. д.), Топливо, отношение, вес, водная нагрузка и т. д. И т. Д. И т. Д. Я могу контролировать несколько вещей, но пробежать один и тот же маршрут 20 раз, чтобы проверить новый топливный режим, было бы просто удручающе, и на выполнение всех экспериментов, которые я хотел бы провести, уйдут годы. Однако я могу записывать все это и многое другое (телеметрия на велосипеде FTW).





Похоже, вы хотите сделать регрессивный анализ. У вас наверняка много данных!
Регрессионный анализ - чрезвычайно распространенный метод моделирования в статистике и науке. (Можно было бы возразить, что статистика - это искусство и наука регрессионного анализа.) Существует множество статистических пакетов для выполнения необходимых вычислений. (Я бы порекомендовал один, но я устарел на много лет.)
Интеллектуальный анализ данных получил плохую репутацию, потому что слишком часто люди полагают, что корреляция равна причинной связи. Я обнаружил, что хороший метод - начать с переменных, которые, как вы знаете, имеют влияние, и сначала построить на их основе статистическую модель. Итак, вы знаете, что ветер, вес и набор высоты влияют на скорость вашего путешествия, и статистическое программное обеспечение может взять ваш набор данных и вычислить корреляцию между этими факторами. Это даст вам статистическую модель или линейное уравнение:
speed = x*weight + y*wind + z*climb + constant
Когда вы исследуете новые переменные, вы сможете увидеть, улучшилась модель или нет, сравнив метрику согласия, например R-квадрат. Так что вы можете проверить, добавляет ли что-нибудь к модели температура или время суток.
Возможно, вы захотите применить преобразование к своим данным. Например, вы можете обнаружить, что работаете лучше в более холодные дни. Но очень холодные и очень жаркие дни могут ухудшить производительность. В этом случае вы можете назначить температуры для бункеров или сегменты: <0 ° C; От 0 ° C до 40 ° C; > 40 ° C или что-то в этом роде. Главное - преобразовать данные таким образом, чтобы они соответствовали рациональной модели того, что происходит в реальном мире, а не только самим данным.
Если кто-то думает, что это не тема, связанная с программированием, обратите внимание, что вы можете использовать те же методы для анализа производительности системы.
В прошлом я использовал модуль Perl Статистика :: Регрессия для решения похожих проблем. Однако учтите, что регрессионный анализ - это определенно искусство. Как сказано в предупреждении в модуле Perl, это не будет иметь для вас смысла, если вы не выучили соответствующую математику.
С таким количеством переменных у вас слишком много измерений, и вы можете посмотреть на Анализ главных компонентов. Это избавляет от «искусства» регрессионного анализа и позволяет данным говорить сами за себя. Некоторые программы для такого рода анализа показаны внизу ссылки.