Получение уникального количества строк из текстовой строки

Мне интересно, как получить уникальное количество символов из текстовой строки. Допустим, я ищу количество повторений слов яблоки, бананы, ананасы, виноград в этой строке.

 A<- c('I have a lot of pineapples, apples and grapes. One day the pineapples person gave the apples person two baskets of grapes')

 df<- data.frame(A)

Допустим, я хочу получить все уникальные количества фруктов, перечисленных в тексте.

  library(stringr)
  df$fruituniquecount<- str_count(df$A, "apples|pineapples|grapes|bananas")

Я пробовал это, но я получаю по всему счету. Я хотел бы ответить как «3». Пожалуйста, предлагайте свои идеи.

Я думаю, вам нужно посмотреть на пакетtidytext. Вот онлайн-книга: ссылка на сайт

— 25.02.2019 15:09

r dplyr tm stringr

25.02.2019 15:06

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

353

Перейти к ответу Данный вопрос помечен как решенный

Ответы 8

Не совсем элегантно, но вы могли бы использовать str_detect вот так.

sum(str_detect(df$A, "apples"), 
    str_detect(df$A, "pineapples"), 
    str_detect(df$A, "grapes"), 
    str_detect(df$A, "bananas"))

Или, основываясь на комментариях ниже, если вы поместите все эти термины в их собственный вектор, вы можете использовать функцию применения:

fruits <- c("apples", "pineapples", "grapes", "bananas")
sum(sapply(fruits, function(x) str_detect(df$A, x)))

Я получаю странную ошибку, когда пробую это в своем наборе данных и создаю столбец с именем df$fruitcount. У меня много строк, и счетчик всегда указывается как очень большое число. Не могли бы вы предложить, если я что-то упустил?

— 25.02.2019 15:24

Это можно было бы сократить до sum(sapply(fruits, function(x) str_detect(df$A, x))) с fruits <- c("apples", "pineapples", "grapes", "bananas").

— 25.02.2019 15:25

25.02.2019 15:13

Ответ принят как подходящий

Вы можете использовать str_extract_all, а затем вычислить длину уникальных элементов.

Вход:

A <- c('I have a lot of pineapples, apples and grapes. One day the pineapples person gave the apples person two baskets of grapes')
fruits <- "apples|pineapples|grapes|bananas"

Результат

length(unique(c(stringr::str_extract_all(A, fruits, simplify = TRUE))))
# [1] 3

Я получаю странную ошибку, когда пробую это в своем наборе данных и создаю столбец с именем df$fruitcount. У меня много строк, и счетчик всегда равен 5. Не могли бы вы подсказать, если я что-то упустил?

— 25.02.2019 15:23

Пожалуйста, поделитесь выводом dput(head(your_dataframe)) в конце вашего вопроса.

— 25.02.2019 15:28

Да, я добавил данные в вопрос и ожидаемый результат

— 25.02.2019 15:36

@ user3570187 Мне кажется, это другая история. Поскольку вы получили довольно много ответов, я предлагаю вам задать еще один с данными, которые вы только что опубликовали, и принять / проголосовать за ответы, которые решили эту проблему.

— 25.02.2019 15:39

Согласитесь с @markus, что ваши правки должны быть другим вопросом.

— 25.02.2019 15:40

Спасибо за помощь! Я разместил еще один вопрос.

— 25.02.2019 15:47

25.02.2019 15:13

Возможно, лучший способ сделать это — сначала разбить слова, а затем получить счет.

library(tokenizers)
library(magrittr)
df$fruituniquecount <- tokenize_words(A) %>% unlist(.) %>% unique(.) %>% 
       stringr::str_count(., "apples|pineapples|grapes|bananas") %>% sum(.)

25.02.2019 15:22

Одной из базовых возможностей может быть:

length(unique(unlist(regmatches(A, gregexpr("apples|pineapples|grapes|bananas", A, perl = TRUE)))))

[1] 3

25.02.2019 15:24

Можно также сделать:

A <- c('I have a lot of pineapples, apples and grapes. One day the pineapples person gave the apples person two baskets of grapes')

df <- data.frame(A) 

fruits <- c("apples", "pineapples", "grapes", "bananas")

df$count <- sum(tolower(unique(unlist(strsplit(as.character(df$A), "\\.|,| ")))) %in% fruits)

Вывод:

[1] 3

25.02.2019 15:24

Ну, вот также базовое решение R без регулярных выражений,

sum(unique(strsplit(A, ' ')[[1]]) %in% c('apples', 'pineapples', 'grapes', 'bananas'))
#[1] 3

25.02.2019 15:24

Мы можем использовать комбинацию stringr и stringi:

target<-"apples|pineapples|grapes|bananas"#inspired by @markus ' solution
length(stringi::stri_unique(stringr::str_extract_all(A,target,simplify=TRUE)))
#[1] 3

25.02.2019 15:26

Зачем изобретать велосипед? Для этого создан пакет квантэда.

Определите вектор ваших фруктов, который в качестве бонуса я использовал с типом сопоставления шаблона шарик (по умолчанию), чтобы улавливать формы как единственного, так и множественного числа.

A <- c("I have a lot of pineapples, apples and grapes. One day the pineapples person gave the apples person two baskets of grapes")
fruits <- c("apple*", "pineapple*", "grape*", "banana*")

library("quanteda", warn.conflicts = FALSE)
## Package version: 1.4.2
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

Затем, когда вы токенизировали это в слова с помощью tokens(), вы можете отправить результат в tokens_select(), используя свой вектор fruits, чтобы выбрать только эти типы.

toks <- tokens(A) %>%
  tokens_select(pattern = fruits)
toks
## tokens from 1 document.
## text1 :
## [1] "pineapples" "apples"     "grapes"     "pineapples" "apples"    
## [6] "grapes"

Наконец, ntype() сообщит вам количество слов типы (уникальных слов), которое является желаемым результатом 3.

ntype(toks)
## text1 
##     3

В качестве альтернативы вы могли бы подсчитать неуникальные вхождения, известные как жетоны.

ntoken(toks)
## text1 
##     6

Обе функции векторизованы, чтобы возвращать именованный целочисленный вектор, где имя элемента будет именем вашего документа (здесь квантэда по умолчанию "text1" для одного документа), так что это также легко и эффективно работает на большом корпусе.

Преимущества? Проще (и читабельнее), чем регулярные выражения, плюс у вас есть доступ к дополнительной функции для токенов. Например, предположим, что вы хотите рассматривать образцы фруктов в единственном и множественном числе как эквивалентные. Вы можете сделать это двумя способами в квантэда: заменив шаблон канонической формой вручную, используя tokens_replace(), или объединив названия фруктов, используя tokens_wordstem().

Использование tokens_replace():

B <- "one apple, two apples, one grape two grapes, three pineapples."

toksrepl <- tokens(B) %>%
  tokens_select(pattern = fruits) %>%
  tokens_replace(
    pattern = fruits,
    replacement = c("apple", "pineapple", "grape", "banana")
  )
toksrepl
## tokens from 1 document.
## text1 :
## [1] "apple"     "apple"     "grape"     "grape"     "pineapple"
ntype(toksrepl)
## text1 
##     3

Использование tokens_wordstem():

toksstem <- tokens(B) %>%
  tokens_select(pattern = fruits) %>%
  tokens_wordstem()
toksstem
## tokens from 1 document.
## text1 :
## [1] "appl"     "appl"     "grape"    "grape"    "pineappl"
ntype(toksstem)
## text1 
##     3

03.03.2019 06:18

Другие вопросы по теме

Group_by() и проценты: summarise() удаляет столбцы, которые мне также нужны - R

R - Поиск столбцов только с одним неотсутствующим значением и заполнение его отсутствующих значений этим уникальным неотсутствующим значением

Распространение кадра данных

Как вычислить tf-idf для кадра данных с несколькими ответами?

R отфильтровать первые 3 записи (записи за последние 3 месяца) по группам

Получить имя элемента map-loop-element при переборе столбцов таблицы

Заполнение пропущенных месяцев вперед

Изменение базы данных для соединения DBI::dbConnect

Используйте mutate_if, вычитая из другого фрейма данных

Передача строки в качестве аргумента в R

Получение уникального количества строк из текстовой строки

Ответы 8

Другие вопросы по теме

Похожие вопросы