Мне нужно создать тест и тренироваться с одной установленной даты. Однако я не могу сделать это со склеарами.
My Target variable: SalePrice
train = pd.read_csv(r'C:\Users\pkoni\Desktop\train.csv')
target = train['SalePrice']
X, y = train.data, train.target
train_X, test_X, train_y, test_y = train_test_split(X, y,
train_size=0.5,
test_size=0.5,
random_state=123)
я не знаю, что я должен добавить к X, y.
Не уверен, что понимаю полностью. Если вы просто пытаетесь разделить случайным образом, это должно сработать:
y = train['SalePrice']
X = train.drop('SalePrice', axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.5,
random_state=0)
Если вы хотите разделить все точки после определенной даты (например, 2010 г.) для тестирования и все точки до обучения, необходимо другое решение.
test = train[train['Yr.Sold'] < 2010]
train = train[train['Yr.Sold'] > 2010]
Затем после разделения теста и обучения вы можете назначить метки и функции для каждого (см. x, y в первом сегменте кода).
Пожалуйста, попробуйте уточнить свой вопрос - что именно вы пытаетесь сделать? И, пожалуйста, не копируйте и не вставляйте изображения текста.