Как нарезать несколько последовательностей фаста на подстроки с длиной в диапазоне в формате фаста?

Question

Как нарезать несколько последовательностей фаста на подстроки с длиной в диапазоне в формате фаста?

1

Для файла, содержащего несколько последовательностей белка в формате fasta с разными длинами, как сгенерировать фрагменты белка (подстроки) в формате fasta с длиной я (i больше или равно 5, но не больше длины каждого белка, соответственно)?

Например, файл последовательностей белка:

>NP_12345.1
ACDEFGH
>XP_543211.2
KLMNOP
...

Я хочу, чтобы формат вывода:

>NP_12345.1(1-5)
ACDEF
>NP_12345.1(1-6)
ACDEFG
>NP_12345.1(1-7)
ACDEFGH
>NP_12345.1(2-6)
CDEFG
>NP_12345.1(2-7)
CDEFGH
>NP_12345.1(3-7)    
DEFGH
>XP_543211.2(1-5)
KLMNO
>XP_543211.2(1-6)
KLMNOP
>XP_543211.2(2-6)
LMNOP
...

Кто-нибудь может мне помочь? Заранее спасибо.

Примечание: я могу использовать

Seqkit sliding -s 1 -W 5

чтобы сгенерировать fast-формат фрагментов белка или пептидов только с 5 аминокислотами, но если пептиды из 6 аминокислот, я должен изменить параметр -W. 6. Есть ли другие универсальные решения?

james 05 янв. 2019, в 05:32

Источник

Теги:

python

bash

perl

awk

1 ответ

Ещё вопросы

tshiono · Accepted Answer · 2019-01-05T01-41-00.000Z

С Perl, пожалуйста, попробуйте:

perl -e '
$/ = "\xd\xa";  # required if input.txt is created with DOS newline format
while (<>) {
    chomp($name = $_);
    chomp($seq = <>);
    $len = length($seq);
    for ($i = 0; $i <= $len - 5; $i++) {
        for ($j = $i + 5; $j <= $len; $j++) {
            printf("%s(%d-%d)\n", $name, $i+1, $j);
            print substr($seq, $i, $j-$i), "\n";
        }
    }
}' input.txt

который дает:

>NP_12345.1(1-5)
ACDEF
>NP_12345.1(1-6)
ACDEFG
>NP_12345.1(1-7)
ACDEFGH
>NP_12345.1(2-6)
CDEFG
>NP_12345.1(2-7)
CDEFGH
>NP_12345.1(3-7)
DEFGH
>XP_543211.2(1-5)
KLMNO
>XP_543211.2(1-6)
KLMNOP
>XP_543211.2(2-6)
LMNOP

Надеюсь это поможет.

Большое спасибо! Я запускаю ваш код "perl -e 'while (<>) {chomp ($ name = $ _); chomp ($ seq = <>); $ len = длина ($ seq); для ($ i = 0; $ i <= $ len - 5; $ i ++) {for ($ j = $ i + 5; $ j <= $ len; $ j ++) {printf ("% s (% d-% d) \ n", $ name, $ i + 1, $ j); печать substr ($ seq, $ i, $ j- $ i), "\ n";}}} 'input.txt ", это быстро и дает мне результат: ( 1-5) 2345,1 ACDEF (1-6) 2345,1 ACDEFG (1-7) 2345,1 ACDEFGH (1-8) 2345,1 ACDEFGH (2-6) 2345,1 CDEFG (2-7) 2345,1 CDEFGH (2-8) 2345,1 CDEFGH (3 -7) 2345,1 DEFGH (3-8) 2345,1 DEFGH (4-8) 2345,1 EEFGH (1-5) 43211,2 KLMNO (1-6) 43211,2 KLMNOP (2-6) 43211,2 LMNOP
дублируются, и (4-8) 2345,1 EFGH не тот результат, который я хотел. Другой момент заключается в том, что структура данных результата отличается от того, что я хотел, например> NP_12345.1 (1-5) ACDEF. Есть ли какие-либо ошибки или другие проблемы? Большое спасибо! @tshiono
Кажется, ваш input.txt создан в формате новой строки DOS, то есть он содержит \r и \n в конце строк. Я изменил свой ответ, чтобы принять формат. Вы бы проверили это снова? BR.
да, вы правы, теперь это работает отлично! Вы действительно гений !!! Спасибо за вашу большую помощь.