J'essaie de trouver des homologues d'un ensemble de protéines en utilisant BLASTp. Je travaille avec des bases de données personnalisées.
J'utilise une valeur de 0,00001 comme seuil.
Je souhaite filtrer les requêtes ayant des appels avec> 90% d'identités. Étant donné que la sortie BLASTp est basée sur les HSP, je ne peux pas filtrer par% identities / query, uniquement par HSP.
Je voudrais savoir comment faire cela et aussi si je suis une stratégie raisonnable.
Voici un exemple d'alignement: qcovs = 100 mais qcovhsp inférieur.
qseqid sseqid pident length discord gapopen qstart qend sstart send evalue bitscore qcovs qcovhspHPNK_01698 HAPS_0519 81,88 596 75 5630 1225615 1177 0,0 889100 49HPNK_01698 HAPS_0519 49,17 301115 8 84366201481 2e-56214100 23HPNK_01698 HAPS_0519 53,64 261 61 6436684616816828 6e-4919130_01698 HAPS_0519 53,64 261 61 6436684616816828 6e-4919130_01698 HAPS_0519 53,64 261 61 64366846168288 6e-4919130_01698 HAPS_0519 53,64 261 6 834 6e-46 181100 15HPNK_01698 HAPS_0519 53,27 214 79 4 1 194 1213 1e-45 180 100 16HPNK_01698 HAPS_0519 55,96 218 60 8550764643827 1e-401641100 18HPNK_01698 HAPS_0519 51,56 225 61 7516731 642 827 1e-38157100 18HPNK_01698 HAPS_05190 15438230 HAPS_0519 49,57 230 77 6 484H 1933 648H 100 57816 484H0519 26 1 364 433 760 835 1e-13 76,3 100 6
Code utilisé
Créer une base de données
makeblastdb -in $ Hparasuisfastadatabase -out H_parasuis_strains_gb_ALL.fna_databaseBLAST -dbtype prot -parse_seqids
Lancer BLAST
blastp -db H_parasuis_strains_gb_ALL.fna_databaseBLAST -query 'out_2.fasta' -out HPNK_selected_vs_H_parasuis_strainss.tblastn -evalue 0,00001 -outfmt "6 qseqid sseqid sseqid pident longueur du pident qstatch 50 bit_sseqid sseqid" qseqid sseqid pident_longueur de départ / code>
Merci, Bernardo