Когда я использую read_excel для импорта данных из Excel в R, некоторые числовые столбцы автоматически преобразуются в даты.
# e.g.
5600 to 1915-05-01
Есть ли способ отключить эту функцию? Кроме использования аргумента col_types в read_excel.
каково ваше отвращение к использованию аргумента, специально разработанного для той цели, которую вы преследуете? Я должно быть что-то упускаю
Вопрос в том, что в ваших данных заставляет read_excel думать, что это дата? Если бы это были только числа, этого, вероятно, не было бы
@MichaelChirico Я загружаю несколько файлов (30+ Excel) с помощью цикла for, и они могут иметь разные структуры (например, имена столбцов, количество столбцов). Следовательно, определение col_types по одному возможно, но не очень эффективно.
@docendodiscimus Это действительно хороший аргумент. Я проверил данные в Excel перед тем, как опубликовать этот вопрос, и столбец содержит только целые числа от 1 до 5 цифр.
понял, и это серьезное беспокойство. Я согласен с @docendodiscimus в этом случае - стоит изучить, что привело read_excel в заблуждение
@MichaelChirico - read_excel() сбил с толку тот факт, что время даты - это особая числовая форма, поэтому для угадывающего типа непросто отличить число от числа, которое на самом деле является датой.
@LenGreski, безусловно, в подавляющем большинстве используемых сегодня наборов данных не используются данные за 1915 год ... Я знаю, что ничто не будет идеальным для этого случая, но улучшения всегда нужно искать.





Пакет readxl, как и readr для файлов необработанных данных, имеет средство определения типа, чтобы определить, как читать столбцы в электронной таблице Excel. Как отмечено в виньетке пакета, процесс угадывания не идеален, особенно в том, что касается форматов даты, поскольку они хранятся как числа особого типа.
Как указано в документации пакета (а также в комментариях к OP), способ избежать неточных догадок от угадывающего типа столбца - это явно указать типы столбцов с аргументом col_types на read_excel().
если угадывающий тип терпит неудачу, вероятно, алгоритм можно улучшить. Я призываю OP подать вопрос на GitHub и, если возможно, поделиться своими данными.
col_types это товарищ