Я пытаюсь объединить различные экспортированные листы Excel в один. Я использую один файл в качестве «базового_файла», а затем добавляю к нему. Некоторые столбцы из новых листов совпадают, а некоторые нет. Для столбцов, которые соответствуют новому файлу базе, я прошу код просто добавить новые данные в конец, а для столбцов, которые не совпадают, я прошу код добавить эти новые столбцы, а затем добавить данные для новых строк. В какой-то степени это работает. Например, первый снимок экрана взят из выходного файла, а второй — из необработанных данных, некоторые значения совпадают (стоимость, показ), но другие отсутствуют. Возможно, я неправильно делаю конкатенацию, но не могу этого понять.
Первый скриншот:
Второй скриншот (исходные данные):
Код:
base_file = pd.read_excel("C:/Users/base_file.xlsx")
additional_files = [
"C:/Users/File_1.xlsx",
"C:/UsersFile_2.xlsx"
"C:/Users/File_3.xlsx",
]
for file in additional_files:
# Load the new file
new_file = pd.read_excel(file)
common_columns = base_file.columns.intersection(new_file.columns)
new_file_common = new_file[common_columns]
base_file = pd.concat([base_file, new_file_common.reindex(columns=base_file.columns)], axis=0, ignore_index=True, sort = False)
new_columns = new_file.columns.difference(base_file.columns)
# Add new columns to the base file with NaN values for existing rows
for col in new_columns:
base_file[col] = pd.NA
# Append the data for new columns, ensuring alignment by index
new_file_non_common = new_file[new_columns]
base_file = pd.concat([base_file, new_file_non_common.reset_index(drop=True)], axis=1, sort = False)
# Remove any duplicated columns
base_file = base_file.loc[:,~base_file.columns.duplicated()]
with pd.ExcelWriter('final_combined_file_corrected1.xlsx') as writer:
# Write the combined DataFrame to the first sheet
base_file.to_excel(writer, sheet_name='Combined Data', index=False)
Я хочу объединить данные из разных листов в один лист. Объединение всех данных в один рабочий лист. @JonSG
Кажется, вы путаете книгу (она же файл) и лист. Книга может содержать несколько листов.
вы объединяете файлы или файлы имеют общие индексы, поэтому некоторые столбцы необходимо добавлять к другим столбцам для одной и той же строки? Если нет, и вы просто объединяете, вы можете просто использовать pd.concat, и он без проблем объединит файлы с разными столбцами.
Да, это разные книги, и все они имеют один рабочий лист. Я объединяю файлы. Некоторые файлы имеют одинаковые имена столбцов, поэтому для тех, кто хочет, чтобы данные добавлялись в эти столбцы только в новых строках, а столбцы, которых нет в базовом файле, добавлялись в конце, а их данные добавлялись в новые строки.
ОК, прочитайте все файлы и просто используйте pd.concat. Он делает именно это для вас. вы получите NaN во всех отсутствующих ячейках. Затем вы можете заполнить все, что вам нужно.
Объединение всех файлов с помощью pandas.concat сделает все, что вам нужно.
df1 = pd.DataFrame([[1,2,3],[2,4,6]], columns=['a', 'b','c'])
df2 = pd.DataFrame([[6,8,10], [8,10,12]], columns=['b', 'c', 'd'])
df = pd.concat([df1, df2])
Просто пояснение: хотите ли вы объединить несколько файлов отдельных листов или это потенциально тот случай, когда каждый файл имеет несколько листов, и вы хотите объединить все в один окончательный файл?