Проблема:Я хочу отфильтровать файл данных со списком значений
Вопрос ; как я могу это сделать? Какие библиотеки или функции позволят это сделать?
Деталь:У меня есть два файла: Файл1:
У меня есть общий файл данных набора генов (> 3000) с несколькими столбцами данных, включая имена генов.
Файл 2: У меня есть второй файл данных, который представляет собой список конкретных имен генов, которые меня интересуют. Это один столбец с 1900 строками.
Я хотел бы отфильтровать набор данных файла 1 по списку в фильме 2, чтобы оставить мне выходные данные этих выбранных генов и их данных.
Я видел использование функций 'strings' и 'dyplyr', но похоже, что это работает при установке порогового значения (> 2 и т. д.) Или использовании заданных фраз (например, 'null'). В этом случае я не хочу записывать 1900 значений «XXXX» и в идеале хотел бы вызывать файлы csv с именами генов, а затем применять фильтр «строка за строкой», то есть фильтровать общий файл по каждому строка? (если это лучший способ сделать это).
Спасибо заранее за любые предложения.
Вам нужен оператор %in%
. Например. file1 %>% filter(gene.id %in% file2.gene.id)
. (Использует dplyr / tidyverse.)
Добро пожаловать в StackOverflow! Пожалуйста, прочтите информацию о как задать хороший вопрос и о том, как дать воспроизводимый пример. Это облегчит другим помощь вам.