Trouvez des homologues de protéines avec BLASTp

biotech

2014-11-12 19:31:13 UTC

view on stackexchange narkive permalink

J'essaie de trouver des homologues d'un ensemble de protéines en utilisant BLASTp. Je travaille avec des bases de données personnalisées.

J'utilise une valeur de 0,00001 comme seuil.

Je souhaite filtrer les requêtes ayant des appels avec> 90% d'identités. Étant donné que la sortie BLASTp est basée sur les HSP, je ne peux pas filtrer par% identities / query, uniquement par HSP.

Je voudrais savoir comment faire cela et aussi si je suis une stratégie raisonnable.

Voici un exemple d'alignement: qcovs = 100 mais qcovhsp inférieur.

  qseqid sseqid pident length discord gapopen qstart qend sstart send evalue bitscore qcovs qcovhspHPNK_01698 HAPS_0519 81,88 596 75 5630 1225615 1177 0,0 889100 49HPNK_01698 HAPS_0519 49,17 301115 8 84366201481 2e-56214100 23HPNK_01698 HAPS_0519 53,64 261 61 6436684616816828 6e-4919130_01698 HAPS_0519 53,64 261 61 6436684616816828 6e-4919130_01698 HAPS_0519 53,64 261 61 64366846168288 6e-4919130_01698 HAPS_0519 53,64 261 6 834 6e-46 181100 15HPNK_01698 HAPS_0519 53,27 214 79 4 1 194 1213 1e-45 180 100 16HPNK_01698 HAPS_0519 55,96 218 60 8550764643827 1e-401641100 18HPNK_01698 HAPS_0519 51,56 225 61 7516731 642 827 1e-38157100 18HPNK_01698 HAPS_05190 15438230 HAPS_0519 49,57 230 77 6 484H 1933 648H 100 57816 484H0519 26 1 364 433 760 835 1e-13 76,3 100 6

Code utilisé

Créer une base de données

  makeblastdb -in $ Hparasuisfastadatabase -out H_parasuis_strains_gb_ALL.fna_databaseBLAST -dbtype prot -parse_seqids

Lancer BLAST

  blastp -db H_parasuis_strains_gb_ALL.fna_databaseBLAST -query 'out_2.fasta' -out HPNK_selected_vs_H_parasuis_strainss.tblastn -evalue 0,00001 -outfmt "6 qseqid sseqid sseqid pident longueur du pident qstatch 50 bit_sseqid sseqid" qseqid sseqid pident_longueur de départ / code>

Merci, Bernardo

Si je ne me trompe pas, qcovhsp est une perc_identity pour ONE HSP. Je devrais calculer manuellement pour chaque coup comme une moyenne pour tous les HSP perc_identity pour un coup.

Je n'aime même pas hit_perc_identity en raison de son hypothèse d'information réductrice. La moyenne est normalement influencée par des valeurs extrêmes.

Quelles espèces comparez-vous? À quelle distance sont-ils? S'ils sont suffisamment proches, les homologues "réels" devraient être capables de former une seule HSP couvrant la plupart des séquences cibles.

Vous pouvez calculer la couverture HSP moyenne pour toute la séquence (à partir de tous les alignements). Vous pouvez également calculer le score moyen par résidu. L'autre option est de faire un alignement de bout en bout avec des outils tels que [stretcher] (http://www.ebi.ac.uk/Tools/psa/emboss_stretcher/help/index-protein.html).

Consultez ma nouvelle question relative à BLAST: http://biology.stackexchange.com/questions/23958/tblastn-and-blastp-discordance-is-that-possible