У меня есть 2 столбца в таблице, которые являются идентификаторами и соответствующими им последовательностями (т.е. TCGATCGA). Я хочу сгруппировать эту таблицу по идентификаторам, а затем сгенерировать все возможные пары последовательностей в каждой группе.
Для группировки я использую df %>% group_by(IDs), но у меня возникают проблемы с созданием всех возможных пар последовательности.
Какая функция подойдет для генерации этих комбинаций, желательно без необходимости вручную вводить последовательности, потому что у меня их более 1000? Конечная цель создания этих пар состоит в том, чтобы иметь возможность проверить сходство между каждой из последовательностей.





Вы можете просто использовать расширенную сетку по тому же столбцу (вектору)?
x <- c(1,2,3,4,5,6)
expand.grid(x, x)
Если вы не хотите возвращать одинаковые идентификаторы и повторения:
t(combn(x, 2))
Кроме того, есть ли способ указать, из каких идентификаторов исходят пары в таблице expand.grid?
как я мог избежать избыточных пар в этом случае?