Question:
Trouvez des homologues de protéines avec BLASTp
biotech
2014-11-12 19:31:13 UTC
view on stackexchange narkive permalink

J'essaie de trouver des homologues d'un ensemble de protéines en utilisant BLASTp. Je travaille avec des bases de données personnalisées.

J'utilise une valeur de 0,00001 comme seuil.

Je souhaite filtrer les requêtes ayant des appels avec> 90% d'identités. Étant donné que la sortie BLASTp est basée sur les HSP, je ne peux pas filtrer par% identities / query, uniquement par HSP.

Je voudrais savoir comment faire cela et aussi si je suis une stratégie raisonnable.

Voici un exemple d'alignement: qcovs = 100 mais qcovhsp inférieur.

  qseqid sseqid pident length discord gapopen qstart qend sstart send evalue bitscore qcovs qcovhspHPNK_01698 HAPS_0519 81,88 596 75 5630 1225615 1177 0,0 889100 49HPNK_01698 HAPS_0519 49,17 301115 8 84366201481 2e-56214100 23HPNK_01698 HAPS_0519 53,64 261 61 6436684616816828 6e-4919130_01698 HAPS_0519 53,64 261 61 6436684616816828 6e-4919130_01698 HAPS_0519 53,64 261 61 64366846168288 6e-4919130_01698 HAPS_0519 53,64 261 6 834 6e-46 181100 15HPNK_01698 HAPS_0519 53,27 214 79 4 1 194 1213 1e-45 180 100 16HPNK_01698 HAPS_0519 55,96 218 60 8550764643827 1e-401641100 18HPNK_01698 HAPS_0519 51,56 225 61 7516731 ​​642 827 1e-38157100 18HPNK_01698 HAPS_05190 15438230 HAPS_0519 49,57 230 77 6 484H 1933 648H 100 57816 484H0519 26 1 364 433 760 835 1e-13 76,3 100 6  

Code utilisé

Créer une base de données

  makeblastdb -in $ Hparasuisfastadatabase -out H_parasuis_strains_gb_ALL.fna_databaseBLAST -dbtype prot -parse_seqids 

Lancer BLAST

  blastp -db H_parasuis_strains_gb_ALL.fna_databaseBLAST -query 'out_2.fasta' -out HPNK_selected_vs_H_parasuis_strainss.tblastn -evalue 0,00001 -outfmt "6 qseqid sseqid sseqid pident longueur du pident qstatch 50 bit_sseqid sseqid" qseqid sseqid pident_longueur de départ / code> 

Merci, Bernardo

Si je ne me trompe pas, qcovhsp est une perc_identity pour ONE HSP. Je devrais calculer manuellement pour chaque coup comme une moyenne pour tous les HSP perc_identity pour un coup.
Je n'aime même pas hit_perc_identity en raison de son hypothèse d'information réductrice. La moyenne est normalement influencée par des valeurs extrêmes.
Quelles espèces comparez-vous? À quelle distance sont-ils? S'ils sont suffisamment proches, les homologues "réels" devraient être capables de former une seule HSP couvrant la plupart des séquences cibles.
Vous pouvez calculer la couverture HSP moyenne pour toute la séquence (à partir de tous les alignements). Vous pouvez également calculer le score moyen par résidu. L'autre option est de faire un alignement de bout en bout avec des outils tels que [stretcher] (http://www.ebi.ac.uk/Tools/psa/emboss_stretcher/help/index-protein.html).
Consultez ma nouvelle question relative à BLAST: http://biology.stackexchange.com/questions/23958/tblastn-and-blastp-discordance-is-that-possible
Un répondre:
terdon
2014-11-12 20:22:04 UTC
view on stackexchange narkive permalink

Tout d'abord, si vous voulez une identité à 90% , vous pouvez supprimer cet appel. Aucun des HSP ne dépasse ce seuil. De plus, puisque vous travaillez avec des protéines, il n'y a pas de problèmes d'épissage et vous devriez pouvoir obtenir un seul HSP couvrant la plupart des séquences de requête et de sujet. En supposant, bien sûr, que vous ayez un véritable homologue.

Dans votre sortie, je vois de nombreux petits HSP qui se chevauchent, dont la plupart ont une faible identité. Je ne peux pas être sûr sans voir la séquence, mais il y a fort à parier que ce que vous avez là-bas est de faible complexité / régions répétitives et c'est pourquoi vous avez autant de HSP séparés. Le seul à mi-chemin décent commence à la position 630 de la séquence de requête et ne mesure que 595 résidus, soit moins de la moitié de votre protéine de requête. Soit vous avez une région N-terminale très divergente, soit votre HSP n'est qu'un domaine conservé. Encore une fois, j'aurais besoin de voir l'alignement réel de la séquence pour être sûr, mais cela ne ressemble pas à un véritable homologue (en supposant que votre espèce soit raisonnablement proche, ce qu'elle doit être si vous utilisez un seuil d'identité de 90%).

Donc, en supposant toujours que votre espèce est suffisamment proche pour s'attendre à des homologues décents, je voudrais simplement ignorer les HSP plus courts et traiter ceux qui représentent plus de, disons, 80% de la longueur de ma requête à> = 90% d'identité. Les hits plus courts seront le plus souvent des domaines conservés ou des régions répétitives / de faible complexité. Les seuils que vous choisissez dépendent des espèces que vous étudiez.

Si vos espèces ne sont pas si proches, n'utilisez pas du tout BLASTP. À la place, vous pouvez utiliser quelque chose comme hmmer . Collectez un ensemble d'homologues de diverses espèces pour chacune de vos protéines de requête, construisez une matrice à l'aide de ceux-ci et utilisez cette matrice pour rechercher votre base de données. Vous pouvez également utiliser des Selenoprofiles qui utilisent une approche similaire.

Ce sont des souches de la même espèce bactérienne. Je suis d'accord avec les seuils que vous suggérez. Merci


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...