Я использую функцию разделения теста поезда для разделения данных для обучения и тестирования, но функция назначает неправильную метку для разделенных данных теста поезда. Вместо присвоения метки из ожидаемой строки он назначает метку из 2-й строки из ожидаемой строки. Пожалуйста, дайте мне знать, где я ошибаюсь?
data = pd.read_csv('To_Tanaji.csv')
print(data.columns)
print(data.shape)
#plt.hist(train["DiffCorrectLatRawLat"])
#test = pd.read_csv('test.csv')
#np.polyfit(data['DistanceRaw2GPS'], data['DistanceCorrected2GPS'], 2)
Output= data.DistanceCorrected2GPS
Input=data.DistanceRaw2GPS
X_train, X_test, y_train, y_test = train_test_split(Input, Output, test_size=0.2)





Функция train_test_split по умолчанию перетасует ваши данные. Если вы этого не хотите, используйте shuffle = False.
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
Если возможно, предоставьте свои входные данные (зашифрованные или нет), чтобы воспроизвести проблему.
Я не предлагаю отключать параметр shuffle в вашей функции train_test_split, а лучше оставьте переменную random_state фиксированной для воспроизводимых разделений. Лучше разделить случайным образом, чем разделить, скажем, верхние 20% набора данных, это может исказить ваши данные.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(Input, Output, test_size = 0.20, random_state = 0)
Если метки разделения неправильные, вы должны убедиться, что переменные вывода и ввода назначены правильно или нет.
Понятно. мои фактические записи в таблице начинаются со строки № 2 и далее. Первая строка предназначена для индексации столбцов. Вторая строка предназначена для имени атрибутов столбца. Фактическая запись начинается со строки номер 2, но панды считают ее нулевой строкой.
Это не действительная проблема означает
Спасибо. Это действительно полезно для меня.