Galera,
Preciso adicionar algum carácter curinga no final das linhas que começam com o sinal de maior ">" de um arquivo fasta.
conforme o exemplo a abaixo:
Já tente alguns funções do "sed", mas, não funcionou. Quem puder ajudar, serei muito agradecido!
>GRMZM5G889790_P01 pep chromosome:AGPv4:Mt:271154:271498:-1 gene:GRMZM5G889790 transcript:GRMZM5G889790_T01 gene_biotype:protein_coding transcript_biotype:protein_coding <preciso de curinga aqui>
MSIVPGKNGFARSLPKAFSFGKTIQSIFPFSILCSDDCRLCEFHCCGSRVCSNKIVLGFY
LVEFIDSAVLVIEFMAPPTIQSNPKSKRWRRHLLIMLSSNIIVVPQVGIQVVKS
>GRMZM5G851921_P01 pep chromosome:AGPv4:Mt:313450:313773:-1 gene:GRMZM5G851921 transcript:GRMZM5G851921_T01 gene_biotype:protein_coding transcript_biotype:protein_coding description:Putative uncharacterized protein orf107-a [Source:UniProtKB/TrEMBL;Acc:Q6R9D4] <preciso de curinga aqui>
MSIGLKKAIALFLLKKRISSFEEDRPPRKPLRLKSPIPIRSTFTILHRHCAGSVGCCFYF
FLLALIDRTSRNPKRLVLPLQPLPLQGSTLHRQIRMSRSELRPTYRN
>GRMZM5G861353_P01 pep chromosome:AGPv4:Mt:347110:347523:1 gene:GRMZM5G861353 transcript:GRMZM5G861353_T01 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:ycf72-1 description:Uncharacterized protein ycf72 [Source:UniProtKB/Swiss-Prot;Acc:Q37082] <preciso de curinga aqui>
MGAFPSPPPWGWSTGFITTPLTTGRLPSQHLDPALPKLFWFTPTLPTCPTVAKQFWDTKR
TSPDGNLKVANLPSFAISFATAPAALANCPPLPRVISMLCMAVPKGISVEVDSSFFSKNP
FPNCTSFFQSIRLSRCI
Galera,
Preciso adicionar algum carácter curinga no final das linhas que começam com o sinal de maior ">" de um arquivo fasta.
conforme o exemplo a abaixo:
Já tente alguns funções do "sed", mas, não funcionou. Quem puder ajudar, serei muito agradecido!
>GRMZM5G889790_P01 pep chromosome:AGPv4:Mt:271154:271498:-1 gene:GRMZM5G889790 transcript:GRMZM5G889790_T01 gene_biotype:protein_coding transcript_biotype:protein_coding <preciso de curinga aqui>
MSIVPGKNGFARSLPKAFSFGKTIQSIFPFSILCSDDCRLCEFHCCGSRVCSNKIVLGFY
LVEFIDSAVLVIEFMAPPTIQSNPKSKRWRRHLLIMLSSNIIVVPQVGIQVVKS
>GRMZM5G851921_P01 pep chromosome:AGPv4:Mt:313450:313773:-1 gene:GRMZM5G851921 transcript:GRMZM5G851921_T01 gene_biotype:protein_coding transcript_biotype:protein_coding description:Putative uncharacterized protein orf107-a [Source:UniProtKB/TrEMBL;Acc:Q6R9D4] <preciso de curinga aqui>
MSIGLKKAIALFLLKKRISSFEEDRPPRKPLRLKSPIPIRSTFTILHRHCAGSVGCCFYF
FLLALIDRTSRNPKRLVLPLQPLPLQGSTLHRQIRMSRSELRPTYRN
>GRMZM5G861353_P01 pep chromosome:AGPv4:Mt:347110:347523:1 gene:GRMZM5G861353 transcript:GRMZM5G861353_T01 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:ycf72-1 description:Uncharacterized protein ycf72 [Source:UniProtKB/Swiss-Prot;Acc:Q37082] <preciso de curinga aqui>
MGAFPSPPPWGWSTGFITTPLTTGRLPSQHLDPALPKLFWFTPTLPTCPTVAKQFWDTKR
TSPDGNLKVANLPSFAISFATAPAALANCPPLPRVISMLCMAVPKGISVEVDSSFFSKNP
FPNCTSFFQSIRLSRCI
Boa noite. Sei que está RESOLVIDO, mas, fica o registro.
A linha a ser alterada, tem mais particularidades, além de iniciar com ">",
Algumas delas:
Espaço, ":", mais de 60 caracteres, mais de 1 campo, etc....
sed '/^>/s/$/<CORINGA>/' texto # Usando o > inicial como referência
sed '/ /s/$/<CORINGA>/' texto #Usando espaço como referência.
sed '/:/s/$/<CORINGA>/' texto #Usando ':' como referência.
sed -r '/.{60}/s/$/ <CORINGA>/' texto #Quantidade de caracteres
Mostrando nº da LINHA, nº de campos, quantidade de caracteres e campo 1:
awk -F: '{print NR,NF,length($0),$1}' texto
1 10 169 >GRMZM5G889790_P01 pep chromosome
2 1 60 MSIVPGKNGFARSLPKAFSFGKTIQSIFPFSILCSDDCRLCEFHCCGSRVCSNKIVLGFY
3 1 54 LVEFIDSAVLVIEFMAPPTIQSNPKSKRWRRHLLIMLSSNIIVVPQVGIQVVKS
4 13 260 >GRMZM5G851921_P01 pep chromosome
5 1 47 FLLALIDRTSRNPKRLVLPLQPLPLQGSTLHRQIRMSRSELRPTYRN
6 14 271 >GRMZM5G861353_P01 pep chromosome
7 1 60 MGAFPSPPPWGWSTGFITTPLTTGRLPSQHLDPALPKLFWFTPTLPTCPTVAKQFWDTKR
8 1 60 TSPDGNLKVANLPSFAISFATAPAALANCPPLPRVISMLCMAVPKGISVEVDSSFFSKNP
9 1 17 FPNCTSFFQSIRLSRCI
Para incluir o CORINGA, com o awk é mais complexo.....