Удаление разрывов строк в R

Я следую коду этого урока https://thewikihow.com/video_JyMBwydhYR8

All_Files <- list.files(pattern = "pdf$")
All_opinions <- lapply(All_Files, pdf_text)

document <-  Corpus(VectorSource(All_opinions))

social_sentences <- document %>%
    tolower() %>%
    paste0(collapse= " ") %>%
    stringr::str_squish() %>%
    stringr::str_split(fixed(".")) %>%
    unlist() %>%
    tm::removePunctuation()

Но после создания вектора «social_sentences» разрывы строк не были удалены.

Вместо этого после удаления знаков препинания остается только буква «н», которая соединяется с ближайшими словами.

Даже в уроке это можно увидеть со словом «холм».

Функция str_squish() уже является частью кода, и я даже изменил ее место, чтобы посмотреть, решит ли она проблему. Я также попробовал функции gsub() и str_replace_all().

Почему вы уверены, что переносы строк не были удалены? Я попробовал код с небольшим предложением, но \n не появилось. Создайте компактный воспроизводимый пример и покажите результат.

int 21h Glory to Ukraine 09.03.2024 19:09
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
1
61
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Действительно, в видео появились лишние n символов. Но на самом деле код полностью удаляет \n.

Попробуй это:

text <- "\n\nString with excess,  trailing and: leading! white   space\n\n"
text %>%
  tolower() %>%
  paste0(collapse= " ") %>%
  stringr::str_split(fixed(".")) %>%
  unlist() %>%
  tm::removePunctuation() %>%  
  stringr::str_squish() 

Результат:

[1] "string with excess trailing and leading white space"
Обновлено:

просто добавьте str_replace_all("\\\\n", " ") в свою трубку:

> pdf_text("stack_1003.pdf") |>
+   VectorSource()|>
+   Corpus() |>
+   tolower() |> 
+   unlist() |>
+   paste0(collapse= " ") |>
+   str_split(fixed(".")) |>
+   str_replace_all("\\\\n", " ") |> 
+   removePunctuation() |> 
+   str_squish() 
[1] "c string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space string with excess trailing and leading white space

Я провел несколько тестов и обнаружил, что ошибка связана с форматом PDF, когда в нем более одной страницы. Пожалуйста, попытайтесь создать PDF-документ, содержащий более одной страницы, повторив ту же самую фразу, которую вы мне показывали: «Строка с лишним, конечным и начальным!» белое пространство. Нет необходимости включать разрывы строк; результат для меня уже включал "nstring", "withnexcess",...

Carla 09.03.2024 23:31

Другие вопросы по теме