Достаточно ли у меня данных для надежного анализа?

У меня есть набор игровых данных НБА с играми за период 2012-13 / 2016-17, включая плей-офф, помеченные отдельно как плей-офф 2013-2017, с чуть более 6000+ строк, которые я построил, которые выглядят так.

                  Date                 Visitor  V_PTS                  Home  \
25 2012-11-03 19:00:00        Sacramento Kings     98        Indiana Pacers   
26 2012-11-03 19:00:00    New Orleans Pelicans     89         Chicago Bulls   
27 2012-11-03 19:00:00          Boston Celtics     89    Washington Wizards   
28 2012-11-03 19:00:00  Portland Trail Blazers     95       Houston Rockets   
29 2012-11-03 19:30:00         Toronto Raptors    100         Brooklyn Nets   
30 2012-11-03 19:30:00       Charlotte Hornets     99      Dallas Mavericks   
31 2012-11-03 19:30:00   Golden State Warriors    114  Los Angeles Clippers   

    H_PTS  Attendance                     Arena                 Location  \
25    106       18165   Bankers Life Fieldhouse    Indianapolis, Indiana   
26     82       21758             United Center        Chicago, Illinois   
27     86       20308         Capital One Arena         Washington, D.C.   
28     85       18140             Toyota Center           Houston, Texas   
29    107       17732           Barclays Center       Brooklyn, New York   
30    126       19490  American Airlines Center            Dallas, Texas   
31    110       19060            Staples Center  Los Angeles, California   

    Capacity Yr Arena Opened   Season  H_Allstars  V_Allstars  V_wins  \
25     17923            1999  2012-13           1           0       0   
26     20917            1994  2012-13           2           0       1   
27     20356            1997  2012-13           0           2       0   
28     18055            2003  2012-13           1           1       1   
29     17732            2012  2012-13           1           0       0   
30     19200            2001  2012-13           0           0       1   
31     19060            1999  2012-13           2           1       1   

    V_losses  H_wins  H_losses  V_WPercent  H_WPercent  
25         2       1         1         0.0         0.5  
26         1       2         0         0.5         1.0  
27         2       0         1         0.0         0.0  
28         1       2         0         0.5         1.0  
29         1       0         0         0.0         0.0  
30         0       1         1         1.0         0.5  
31         1       2         0         0.5         1.0 

Я не пытаюсь делать что-либо слишком интенсивно, но я пытаюсь найти, что влияет / предсказывает посещаемость НБА для команд с разумной степенью точности. Вы бы порекомендовали добавить какие-либо другие предикторы? Как бы вы посоветовали изучить данные, чтобы понять, и какого типа пакеты машинного обучения могут быть полезны? Мой самый первый личный проект, поэтому я очень благодарен за любые советы / примеры.

Обновлять:

После некоторого быстрого изучения и просмотра нескольких пошаговых онлайн-руководств я наткнулся на эту корреляционную матрицу по заполнению емкости в процентах. Я могу ошибаться, но кажутся ли эти цифры низкими? Каждая команда слишком специфична, и мне, возможно, придется сосредоточиться на командах, которые не продаются постоянно, или есть какие-то переменные, о которых я должен подумать, и которые могут иметь какое-то отношение к прошлой истории посещаемости?

Достаточно ли у меня данных для надежного анализа?

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
0
53
1

Ответы 1

Я бы подумал о добавлении нескольких функций:

  1. Суперзвезды дома и гостя. Я знаю, что у вас все звезды, но суперзвезды немного разные. Пример: Леброн против Демара Дерозана. Оба являются суперзвездами, но гораздо больше людей, вероятно, пойдут к Леброну, а не к Демару. Однако было бы довольно сложно добавить все это, а также определить, кто является суперзвездой.

  2. Вы можете подумать о соперничестве. Бостон против Лос-Анджелеса (Лейкерс) - это всегда аншлаг из-за истории команд.

  3. Количество владельцев абонементов может влиять или не влиять на подсчет. Мне было бы интересно узнать, имеет ли это какой-либо вес.

Некоторые из них не слишком важны. Я бы подумал об избавлении от игрового счета, поскольку именно это происходит в конце игры, а посещаемость связана с продажей билетов (до начала игры). Похоже, у вас есть приличный объем данных для работы. Очевидно, это будет контролируемая модель. Похоже, вы захотите использовать регрессию в своей модели.

Другие вопросы по теме