Как разбить файл fasta на желаемую длину нуклеотидов в R?

Будучи полным новичком в языке программирования и особенно R, я застрял в этой проблеме с нескольких дней.

У меня есть случайный файл fasta:

>header AAAATGGGGCTTTTACCCCGATA

My desired output is:

segment1 AAAAT
segment2 GGGGC
segment3 TTTTA
segment4 CCCCG
segment5 ATA

Мне нужна небольшая помощь в решении этого. Любая помощь будет высоко оценена!

Предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.

Community 22.03.2022 13:25
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
1
33
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вот как бы я это сделал:

# Use the Biostrings package to parse fasta file and store long strings
# https://bioconductor.org/packages/release/bioc/html/Biostrings.html 
require(Biostrings)

# Create test data
fileConn<-file("test.fa")
writeLines(c(
    ">header1",
    "AAAATGGGGC",
    "TTTTACCCCG",
    "ATA",
    ">header2",
    "ACGTACG"
), fileConn)
close(fileConn)

# Read fasta file
string_set <- readBStringSet("test.fa", format = "fasta")
string_set

# Segment the first sequence
sequence = string_set[[1]]
sequence_length = length(sequence)
segment_length = 5

segment_count = ceiling(sequence_length/segment_length) # number of segments
segments <- lapply(1:segment_count, function(segment_id) {
    start_position <- (segment_id-1)*segment_length + 1
    end_position <- min(start_position + segment_length - 1, sequence_length)
    segment <- as.character(subseq(sequence,start_position,end_position))
    segment_name <- sprintf("Segment%s", segment_id)
    c(`Segment Name`=segment_name, `Segment`=segment)
})
segments <- as.data.frame(do.call(rbind, segments))
segments

Другие вопросы по теме

Как заменить seqID в файле fasta новыми seqID с помощью biopython
Как рассчитать процентный аминокислотный состав последовательностей, содержащихся в большом файле FASTA
Найти список шаблонов mulifasta на основе пользовательского ввода в Perl
Печать идентификатора транскрипта и символа гена из РНК Fasta в новый текстовый файл
Определите, в каких файлах есть хотя бы определенное количество строк, соответствующих шаблону
Как объединить два файла fasta и удалить дублирующуюся информацию?
Как определить диапазон «r (n,)», используя переменную в функции match () с awk
Sed/Awk: как найти и удалить две строки, если шаблон в первой строке повторяется; бить
Написание скрипта, который использует agrep для перебора строк в документе одну за другой по строкам в другом документе и получения результата
Есть ли способ собрать много многострочных строк, обозначенных определенным символом, в Arraylist, используя поток данных в Java 8?