У меня есть набор игровых данных НБА с играми за период 2012-13 / 2016-17, включая плей-офф, помеченные отдельно как плей-офф 2013-2017, с чуть более 6000+ строк, которые я построил, которые выглядят так.
Date Visitor V_PTS Home \
25 2012-11-03 19:00:00 Sacramento Kings 98 Indiana Pacers
26 2012-11-03 19:00:00 New Orleans Pelicans 89 Chicago Bulls
27 2012-11-03 19:00:00 Boston Celtics 89 Washington Wizards
28 2012-11-03 19:00:00 Portland Trail Blazers 95 Houston Rockets
29 2012-11-03 19:30:00 Toronto Raptors 100 Brooklyn Nets
30 2012-11-03 19:30:00 Charlotte Hornets 99 Dallas Mavericks
31 2012-11-03 19:30:00 Golden State Warriors 114 Los Angeles Clippers
H_PTS Attendance Arena Location \
25 106 18165 Bankers Life Fieldhouse Indianapolis, Indiana
26 82 21758 United Center Chicago, Illinois
27 86 20308 Capital One Arena Washington, D.C.
28 85 18140 Toyota Center Houston, Texas
29 107 17732 Barclays Center Brooklyn, New York
30 126 19490 American Airlines Center Dallas, Texas
31 110 19060 Staples Center Los Angeles, California
Capacity Yr Arena Opened Season H_Allstars V_Allstars V_wins \
25 17923 1999 2012-13 1 0 0
26 20917 1994 2012-13 2 0 1
27 20356 1997 2012-13 0 2 0
28 18055 2003 2012-13 1 1 1
29 17732 2012 2012-13 1 0 0
30 19200 2001 2012-13 0 0 1
31 19060 1999 2012-13 2 1 1
V_losses H_wins H_losses V_WPercent H_WPercent
25 2 1 1 0.0 0.5
26 1 2 0 0.5 1.0
27 2 0 1 0.0 0.0
28 1 2 0 0.5 1.0
29 1 0 0 0.0 0.0
30 0 1 1 1.0 0.5
31 1 2 0 0.5 1.0
Я не пытаюсь делать что-либо слишком интенсивно, но я пытаюсь найти, что влияет / предсказывает посещаемость НБА для команд с разумной степенью точности. Вы бы порекомендовали добавить какие-либо другие предикторы? Как бы вы посоветовали изучить данные, чтобы понять, и какого типа пакеты машинного обучения могут быть полезны? Мой самый первый личный проект, поэтому я очень благодарен за любые советы / примеры.
Обновлять:
После некоторого быстрого изучения и просмотра нескольких пошаговых онлайн-руководств я наткнулся на эту корреляционную матрицу по заполнению емкости в процентах. Я могу ошибаться, но кажутся ли эти цифры низкими? Каждая команда слишком специфична, и мне, возможно, придется сосредоточиться на командах, которые не продаются постоянно, или есть какие-то переменные, о которых я должен подумать, и которые могут иметь какое-то отношение к прошлой истории посещаемости?
Я бы подумал о добавлении нескольких функций:
Суперзвезды дома и гостя. Я знаю, что у вас все звезды, но суперзвезды немного разные. Пример: Леброн против Демара Дерозана. Оба являются суперзвездами, но гораздо больше людей, вероятно, пойдут к Леброну, а не к Демару. Однако было бы довольно сложно добавить все это, а также определить, кто является суперзвездой.
Вы можете подумать о соперничестве. Бостон против Лос-Анджелеса (Лейкерс) - это всегда аншлаг из-за истории команд.
Количество владельцев абонементов может влиять или не влиять на подсчет. Мне было бы интересно узнать, имеет ли это какой-либо вес.
Некоторые из них не слишком важны. Я бы подумал об избавлении от игрового счета, поскольку именно это происходит в конце игры, а посещаемость связана с продажей билетов (до начала игры). Похоже, у вас есть приличный объем данных для работы. Очевидно, это будет контролируемая модель. Похоже, вы захотите использовать регрессию в своей модели.