В настоящее время я пытаюсь выполнить анализ настроений для объекта kwic
, но боюсь, что функция kwic()
не возвращает все строки, которые она должна возвращать. Я не совсем уверен, в чем именно заключается проблема, из-за которой трудно опубликовать воспроизводимый пример, поэтому я надеюсь, что подробного объяснения того, что я пытаюсь сделать, будет достаточно.
Я подмножил исходный набор данных, содержащий выступления, которые я хочу проанализировать, в новый фрейм данных, который включает только выступления, в которых упоминаются определенные ключевые слова. Я использовал следующий код для создания этого подмножества:
ostalgie_cluster <- full_data %>%
filter(grepl('Schwester Agnes|Intershop|Interflug|Trabant|Trabi|Ostalgie',
speechContent,
ignore.case = TRUE))
Результирующий фрейм данных состоит из 201 наблюдения. Однако, когда я выполняю kwic()
с тем же исходным набором данных, используя следующий код, он возвращает фрейм данных только с 82 наблюдениями. Кто-нибудь знает, что может быть причиной этого? Опять же, извините, я не могу привести воспроизводимый пример, но когда я пытаюсь создать репрекс с нуля, он просто... работает...
#create quanteda corpus object
qtd_speeches_corp <- corpus(full_data,
docid_field = "id",
text_field = "speechContent")
#tokenize speeches
qtd_tokens <- tokens(qtd_speeches_corp,
remove_punct = TRUE,
remove_numbers = TRUE,
remove_symbols = TRUE,
padding = FALSE) %>%
tokens_remove(stopwords("de"), padding = FALSE) %>%
tokens_compound(pattern = phrase(c("Schwester Agnes")), concatenator = " ")
ostalgie_words <- c("Schwester Agnes", "Intershop", "Interflug", "Trabant", "Trabi", "Ostalgie")
test_kwic <- kwic(qtd_tokens,
pattern = ostalgie_words,
window = 5)
Это что-то вроде предположения без воспроизводимого примера (а именно вашего ввода full_data
), но вот мое лучшее предположение. Ваш вызов kwic()
использует сопоставление с образцом "glob" по умолчанию, и вместо этого вы хотите найти совпадение с регулярным выражением.
Исправьте это так:
kwic(qtd_tokens, pattern = ostalgie_words, valuetype = "regex",
window = 5