Итак, я пытаюсь решить проблему, когда у меня есть набор данных с 3 столбцами: «CustomerID», «Fast» и «Precise», где «CustomerID» — это просто номер клиента, «Fast» и «Precise», а не , относятся к тому, как Клиент оценил определенный продукт. «Быстро» означает, что продукт был оценен быстро с меньшей точностью, а «Точно» — наоборот; Я хочу понять, можно ли надежно использовать «быстрый» метод, сохраняя при этом уровень точности, аналогичный «точному». Одна цель состоит в том, чтобы определить и оценить взаимосвязь между столбцом «Быстро» и столбцом «Точно», но единственное, что приходит на ум, — это линейная регрессия. Есть ли другие варианты, учитывая, что набор данных состоит из менее чем 200 записей? Я пытался использовать модель квантильной регрессии, но я не очень понимаю, как она работает, поскольку она возвращает матрицу со всеми возможными значениями вместо того, чтобы возвращать только одно значение для каждой записи.
Выдержка для двух столбцов:
Fast|Precise
10| 10.3
25| 15.0
50| 34.2
75| 49.4
100| 71.3
125| 81.3
150| 94.0
175| 104.3
...| ...
Подводя итог, мне нужно выяснить, какие отношения связывают эти две переменные (учитывая, что «Быстро» имеет шаги, а «Точно» — нет). Использование только линейной регрессии, я думаю, немного ограничивает, так как точка пересечения имеет значение p, которое немного велико.
Есть ли у вас какие-либо идеи? К сожалению, я не нашел разумного решения проблемы, и это моя последняя надежда.
Линейная регрессия кажется подходящим решением, и я действительно не понимаю, почему перехват с высоким значением p рассматривается как проблема?
Если вы считаете, что может существовать нелинейная связь, вы можете попробовать включить квадратичный член в свою модель регрессии (т. е. полиномиальную регрессию). В качестве альтернативы вы можете попробовать лёссовую регрессию или обобщенную аддитивную модель, чтобы сгладить взаимосвязь.
Вы можете попробовать все эти методы и посмотреть, какой из них подходит лучше всего.
Спасибо за терпение, помощь и время!