Я импортирую файл Excel в R, где формат даты в Excel — «27-02-2012». Однако, как только я импортирую набор данных в R с кодом ниже:
#Loading packages
library(tidyverse)
library(readxl)
library(writexl)
library(stringr)
library(textclean)
library(lubridate)
library(zoo)
импортировать данные
data_corpus <- read_excel("data.xlsx",
sheet= "xyz")
Формат даты в некоторых строках остается «27-02-2012», в то время как другие строки выглядят следующим образом «40911».
Можно ли преобразовать все значения в столбце «дата» в следующий формат: "27-02-2012"?
Вот пример данных:
sapply(data_corpus, class)
выход:
post date
"character" "character"
Я пробовал следующий код, но он превращает все значения в «дате» в NA:
data_corpus$date <- as_date(data_corpus$date)
Образец:
data_corpus$post[2]
[1] this is really unfortunateا"
> data_corpus$date[2]
[1] "27-02-2012"
Похоже, что столбец «дата» в Excel представляет собой смесь дат и символьных строк, представляющих даты. Возможно, будет проще отредактировать файл Excel, чтобы весь столбец был в одном формате. В R вам нужно будет отделить числа от строк и перейти по ссылке в предыдущем комментарии, чтобы скрыть число и прочитать документацию по функциям as.Date()
и strptime()
.
Попробуйте использовать параметр col_types
data_corpus <- read_excel("data.xlsx", sheet= "xyz", col_types = c("text", "date"))
Возможный дубликат здесь stackoverflow.com/questions/43230470/…