Я хочу определенным образом проанализировать свой набор данных, но, к сожалению, несмотря на то, что потратил много времени на R, я так и не смог понять, как выполнить поставленную задачу. Ниже то, что я хочу сделать:
Имя набора данных: Proteome (в этом наборе данных тысячи строк и 14 столбцов: ниже я показываю только четыре записи в столбце 5)
Row 1, column 5: GHFCLKPGCNFHAESTRGYR
Row 2, column 5: FCLKPGCNFHAESTRGYR
Row 3, column 5: GHFCLKPGCNFHAESTR
Row 4: column 5: GCNFHAESTR
Во 2-й строке пропущены первые две буквы 1-й строки; в строке 3 пропущены последние три буквы строки 1; в строке 4 пропущены первые семь и последние три буквы строки 1.
Строки 2, 3 и 4 отражают артефакты научного метода, который я использовал для получения данных, и поэтому я хочу удалить эти записи.
В идеале я хочу, чтобы R возвращал мне верхнюю запись, но было бы нормально, если бы R мог сворачивать такие строки только в одну строку. Моя идея состоит в том, чтобы свернуть несколько строк в одну, если пять последовательных букв в этих строках совпадают друг с другом. В приведенном выше примере GCNFHAESTR совпадает во всех четырех строках, поэтому я хочу, чтобы R вернул мне только одну строку, в идеале верхнюю.
Выполняли ли вы какие-либо поиски в Google в поисках методов выравнивания с использованием пакета от BioConductor?
@db код вернул следующее: структура(c(4L, 1L, 3L, 2L, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA), .Label = c("FCLKPGCNFHAESTRGYR", "GCNFHAESTR", "GHFCLKPGCNFHAESTR", "GHFCLKPGCNFHAESTRGYR"), class = "factor")
@demarsylvain В моем наборе данных около 6000 строк. Впервые задаю вопрос на этом форуме. Может ли кто-нибудь помочь мне, как я могу показать изображение моего фрейма данных. Я пытался вставить скриншот, но это тоже не сработало. Спасибо!
Пожалуйста, проверьте часть моего фрейма данных здесь (если это не работает, скопируйте и вставьте URL-адрес на новую страницу): i67.tinypic.com/2wd0ap3.png[/IMG]





действительно, будет полезно, если вы предоставите несколько примеров строк, которые не совпадают со строкой 4. Сколько строк в вашем наборе данных?