Построение ожидаемой вероятности темы модели STM с использованием ggplot2

Я изучаю набор данных онлайн-обзора и использую пакет stm от R для анализа данных.

Я прочитал пост , в котором показано, как использовать пакет stm для изучения текстовых данных, и нашел его весьма полезным. В частности, я думаю, что рисунок ниже, взятый из поста, может быть полезен для моего исследования.

В посте показана только часть кода этого изображения.

topic_labels <- tribble(
  ~topic, ~category, ~color, 
  list(4, 8, 24, 50), "Anthropology/History", "#d4ae0b", 
  list(44, 48), "Journalism/Satire", "#3E7D49", 
  list(9, 17, 27, 30, 32), "Philosophy", "#c73200", 
  list(2, 3, 5, 11, 13, 15, 18, 20, 26, 28, 33, 34, 35, 39, 43), "Politics", "#de860b", 
  list(14, 23, 29, 31, 36, 37, 38, 42, 45, 47), "Political Economy", "#6F8FCF",
  list(21, 25, 41), "Military", "#b7a4d6", 
  list(1, 6, 7, 10, 12, 16, 19, 22, 40), "Sociology", "#8f1f3f", 
  list(46, 49), "Science/Math", "#767676") %>% 
  unnest(topic) %>% 
  unnest(topic) %>% 
  mutate(topic = factor(topic))

Я попытался сгенерировать код, используя свой собственный набор данных, но безуспешно. Вот мой код:

library(stm)
library(tidyverse)
library(ggplot2)

# Step 1: Create a mapping of topics to categories
topic_categories <- c(
  "Price" = "11,21,25,7",
  "Services" = "1,9,5",
  "Environment" = "18,13,24,3",
  "Hygiene" = "26,19,4,23",
  "Personnel" = "20,6,15",
  "Values" = "14,17,22",
  "Perception" = "2,16,8,12",
  "Others" = "10"
)

# Step 2: Create a data frame with topic probabilities
topic_probabilities <- colMeans(stm26$theta)
topic_data <- data.frame(
  topic = 1:length(topic_probabilities),
  probability = topic_probabilities
)

# Step 3: Assign categories to topics
topic_data$category <- NA
for (cat in names(topic_categories)) {
  topics <- as.numeric(strsplit(topic_categories[cat], ",")[[1]])
  topic_data$category[topic_data$topic %in% topics] <- cat
}

# Step 4: Get top words for each topic
top_words <- labelTopics(stm26, n = 2)
topic_data$top_words <- apply(top_words$prob, 1, function(x) paste(x, collapse = ", "))

# Step 5: Assign colors to categories
category_colors <- c(
  "Price" = "#8f1f3f",
  "Services" = "#d4ae0b",
  "Environment" = "#de860b",
  "Hygiene" = "#6F8FCF",
  "Personnel" = "#c73200",
  "Values" = "#b7a4d6",
  "Perception" = "#3E7D49",
  "Others" = "#767676"
)

# Step 6: Create the plot
ggplot(topic_data, aes(y = reorder(topic, probability), x = probability, color = category)) +
  geom_segment(aes(x = 0, xend = probability, yend = reorder(topic, probability)), size = 0.5) +
  geom_point(size = 1) +
  geom_text(aes(label = top_words), hjust = 0, nudge_x = 0.002, size = 3) +
  scale_color_manual(values = category_colors) +
  scale_x_continuous(labels = scales::percent_format(accuracy = 1), 
                     limits = c(0, 0.18)) +
  geom_vline(xintercept = seq(0.05, 0.15, by = 0.05), color = "lightgrey") +  
  facet_grid(category ~ ., scales = "free_y", space = "free_y", switch = "y") +
  theme_minimal() +
  theme(
    axis.title.y = element_blank(),
    axis.text.y = element_text(face = "bold", size = 8, color = "black", margin = margin(r = -25)), 
    axis.ticks.y = element_blank(),
    panel.grid.major.y = element_blank(),
    panel.grid.minor.y = element_blank(),
    panel.grid.major.x = element_blank(),  
    panel.grid.minor.x = element_blank(),  
    legend.position = "none",
    strip.placement = "outside",
    strip.text.y.left = element_text(angle = 0, hjust = 1, face = "bold"),
    plot.title = element_text(hjust = 0.5, face = "bold"),
    plot.subtitle = element_text(hjust = 0.5, face = "italic"),
    plot.margin = margin(5.5, 40, 5.5, 5.5)  # Adjusted right margin to prevent text cutoff
  ) +
  labs(
    title = "Title",
    subtitle = "Subtitle",
    x = "Expected topic probability"
  )

Результат немного отличается от изображения в посте.

Во-первых, я не могу переместить название категории в начало строки темы. Во-вторых, линия сетки (серого цвета) прерывистая, а не непрерывная.

У кого-нибудь есть идеи, как изменить код для создания графики, похожей на ту, что показана в сообщении?

r ggplot2

01.09.2024 10:16

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Здесь можно добиться желаемого результата, переключившись на ggforce::facet_col, чтобы переместить текст полосы вверх, использовать ggtext, чтобы раскрасить текст полосы, и, наконец, использовать annotation_custom и clip = "off", чтобы получить непрерывные линии сетки без разрывов.

Использование некоторых поддельных случайных данных примера:

library(tidyverse)
library(ggtext)
library(ggforce)

set.seed(123)

topic_data <- data.frame(
  topic = sample(LETTERS, 26),
  probability = runif (26, 0, .18),
  category = sample(names(category_colors), 26, replace = TRUE),
  top_words = sample(letters, 26)
) |>
  left_join(
    enframe(category_colors, name = "category", value = "color")
  ) |>
  mutate(
    category = factor(category, names(category_colors)),
    category_facet = glue::glue(
      "<span style='color: {color}'>{category}</span>"
    ),
    category_facet = reorder(category_facet, as.numeric(category))
  )

ggplot(topic_data, aes(
  y = reorder(topic, probability),
  x = probability, color = category
)) +
  lapply(
    seq(0.05, 0.15, 0.05),
    \(x) {
      annotation_custom(
        grid::segmentsGrob(
          y0 = unit(0, "npc"), y1 = unit(1, "npc") + unit(16, "pt"),
          gp = grid::gpar(
            col = "lightgrey"
          )
        ),
        xmin = x,
        xmax = x
      )
    }
  ) +
  geom_segment(aes(
    x = 0, xend = probability,
    yend = reorder(topic, probability)
  ), size = 0.5) +
  geom_point(size = 1) +
  geom_text(aes(label = top_words), hjust = 0, nudge_x = 0.002, size = 3) +
  scale_color_manual(values = category_colors) +
  scale_x_continuous(
    labels = scales::percent_format(accuracy = 1),
    limits = c(0, 0.18),
    expand = c(0, 0, .05, 0)
  ) +
  ggforce::facet_col(~category_facet,
    scales = "free_y",
    space = "free"
  ) +
  theme_minimal() +
  theme(
    axis.text.y = element_text(
      face = "bold", size = 8
    ),
    axis.ticks.y = element_blank(),
    panel.grid = element_blank(),
    legend.position = "none",
    strip.text.x = ggtext::element_markdown(
      hjust = 0, face = "bold", 
      size = 12,
      margin = margin(l = -13)
    ),
    strip.background = element_blank(),
    strip.clip = "off",
    plot.title = element_text(hjust = 0.5, face = "bold"),
    plot.subtitle = element_text(hjust = 0.5, face = "italic"),
    plot.margin = margin(5.5, 40, 5.5, 5.5)
  ) +
  labs(
    title = "Title",
    subtitle = "Subtitle",
    x = "Expected topic probability",
    y = NULL
  ) +
  coord_cartesian(clip = "off")

Спасибо! Можно ли переместить текст полосы дальше влево и выровнять его по вертикали с буквами темы (A, B, C, D, E...)? Кроме того, могу ли я увеличить расстояние по вертикали между строками тем и расстояние по вертикали между каждой категорией?

— 02.09.2024 03:18

Конечно. В ggplot2 >= 3.5.0 мы можем установить strip.clip = "off", а затем использовать отрицательную левую сторону margin= для текста полосы, чтобы сместить его влево. Тем не менее, это требует некоторых усилий, чтобы правильно учесть ширину текста оси. Смотрите мой отредактированный и обновленный ответ.

— 02.09.2024 07:41

Если я хочу увеличить вертикальное расстояние между всеми строками темы, нужно ли мне настроить эстетику y в функции ggplot()? То есть добавить смещение к значениям y?

— 02.09.2024 15:12

Не уверен, что я вас правильно понял. Чтобы увеличить расстояние между строками тем (т. е. A, B, C, ...), вам необходимо увеличить высоту, используемую для экспорта графика, или освободить больше места для панелей, уменьшив panel.spacing, размер шрифта для категории (также известные как текст полосы), ...

— 02.09.2024 16:07

01.09.2024 15:04