У меня есть фрейм данных, как показано ниже,
> df
A B C D E
1 1 2 3 4 5
2 4 5 6 7 7
3 7 8 9 8 9
где строки - это гены, а столбец - идентификаторы образцов, я хочу проиндексировать образцы нормальных / больных. Нормальные образцы - это A, B, а образцы болезней - D и E (например). У меня есть фенотипический файл следующего содержания
> Pheno
sample status
1 A Normal
2 B Normal
3 C Unknown
4 D Diseased
5 E Diseased
Теперь мой вопрос: как индексировать образцы в 'df', скажем, например, == 0 для нормальных и == 1 для больных в R на основе классификации файлов Pheno. (Индексирование образцов в Normal и Diseased из файла необработанных подсчетов RNAseq с 758 образцами в виде столбцов и 556789 генов в виде строк) Надеюсь, что все понятно, было бы здорово, если бы вы могли мне в этом помочь. Большое спасибо за вашу помощь
С уважением,
Хорошего дня,
Дэйв.
Большое спасибо за ваш ответ, я хотел применить функцию voom из пакета limma для нормализации данных. поэтому я хочу сгруппировать данные в два состояния, такие как «Нормальный» и «болезнь» в файле (df). для создания матрицы дизайна. (Как тестовые и тренировочные группы)
@David, вы можете отредактировать свой пост и написать ожидаемый результат. Хотели бы вы, например, заменить содержимое df
на 0 или 1 в зависимости от того, нормальные они или больные?
Ожидаемый результат - сгруппировать данные в два набора и нормализовать их с помощью пакета под названием limma. здесь я не должен изменять какое-либо содержимое df.
Можете ли вы предоставить ожидаемый результат с учетом вашего примера ввода?