Присвоить значение столбцу на основе списка индексов

Я работаю с данными Netflix из Kaggle и тем, как они отформатированы, есть 1 строка с идентификатором фильма, за которой следуют строки идентификаторов клиентов и оценок для этого фильма. Таким образом, формат будет следующим:

где строка только с 1 номером — это идентификатор фильма, а следующие строки — это оценки покупателей для этого фильма. Я пытаюсь извлечь эти идентификаторы фильмов и просто создать еще один столбец в рейтинге клиентов, который будет содержать идентификатор фильма, но я не совсем уверен, как это сделать. Мне удалось создать список всех индексов, в которых появляется идентификатор фильма:

movie_title_index = which(is.na(df), arr.ind=TRUE)

Но у меня возникли проблемы с выяснением того, как назначить элемент по этому индексу каждой строке после этого столбца. Вот что я смог придумать до сих пор, но это не работает:

df[rownames(df)>movie_title_index,]$movie_id = df$V1[movie_title_index]

Вы можете опубликовать свои данные, используя dput()?

— 10.04.2019 23:27

10.04.2019 23:21

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я воссоздал ваши данные следующим образом:

df <- data.frame(
  x = c(
    "1:",
    "3245 4",
    "5443 2",
    "2:",
    "4346 4",
    "2345 5"
  ),
  stringsAsFactors = FALSE
)

Вот решение, использующее tidyverse, которое разбивает строковые компоненты и заполняет MoveID вниз.

library(dplyr)
library(tidyr)
library(stringr)

df %>% 
  mutate(MoveID = str_extract(x,"^[[:digit:]](?=\\:)"),
         CustomedID = str_extract(x,"^[[:digit:]]+(?=\\s)"),
         Score = str_extract(x,"(?<=\\s)[[:digit:]]+$")) %>%
  fill(MoveID) %>%
  filter(complete.cases(.)) %>%
  select(-x)

#>
  MoveID CustomedID Score
1      1       3245     4
2      1       5443     2
3      2       4346     4
4      2       2345     5

Пожалуйста. Если это решило вашу проблему, пожалуйста, принимать ответ.

— 11.04.2019 04:44

10.04.2019 23:43