Question:
Comment les limites d'un gène sont-elles déterminées?
ghchinoy
2011-12-19 22:16:43 UTC
view on stackexchange narkive permalink

Quels processus et méthodes statistiques sont utilisés par les généticiens / biologistes moléculaires pour savoir où un gène commence et où se termine?

À quoi fait référence la balise "basique"?
Je pensais que la question était plus fondamentale pour semer le groupe, alors je l'ai taguée _basic_. Si ce n'est pas un protocole, n'hésitez pas à le supprimer.
@ghchinoy: Je l'ai repensé, en supposant qu'il s'agit d'une [balise meta] (http://blog.stackoverflow.com/2010/08/the-death-of-meta-tags/) (bien que ce _ soit_ une question sur les paires de bases)
Juste pour clarifier: nous parlons ici de * gènes codant pour les protéines *, n'est-ce pas? Il y en a beaucoup d'autres pour lesquels les méthodes sont complètement différentes.
@KonradRudolph pourriez-vous peut-être faire référence aux autres types de gènes et méthodes? Merci.
@ghchinoy À titre d’exemple, je travaille actuellement sur des gènes d’ARNt et comme ils utilisent une polymérase différente, leur promoteur et leur site de terminaison sont nettement différents. Il en va de même pour tous les autres ARN non codants, puis il y a des choses comme les pseudogènes et les LINE / SINE (ceux-ci ne sont généralement pas considérés comme des gènes, mais en raison de leur similitude avec les gènes ARN non codants, ils compliquent l'analyse). Pourtant, il existe en fait des méthodes bioinformatiques pour trouver ces gènes. Pour autant que je sache, ils utilisent principalement la recherche de motifs.
Quatre réponses:
#1
+12
agrimaldi
2011-12-20 00:02:46 UTC
view on stackexchange narkive permalink

Je ne connais qu'une seule approche naïve pour déterminer les limites d'un gène: la RACE-PCR. Il existe deux types, 3 'et 5' RACE, qui permettent de trouver les extrémités respectives.

Le raisonnement est le suivant:

  • Vous effectuez une marche arrière transcription du transcrit d'intérêt à l'aide d'une amorce spécifique. À cette étape, vous avez un ADNc simple brin spécifique.

  • Ensuite, vous ajoutez un tronçon de nucléotides identiques appelé queue homopolymère en 5 'de l'ADNc.

  • Enfin, vous effectuez une PCR en utilisant une amorce spécifique et une amorce universelle qui reconnaît la queue homopolymère. Vous pouvez séquencer votre ADNc amplifié et trouver où il se trouve dans le génome avec une résolution de 1 pb.

Pour la 3'RACE, le concept est le même mais la queue poly-A est utilisée au lieu de la générer soi-même avec le terminal transferase.

Voir cet article pour un protocole détaillé:

Sambrook J, Russell DW . 2006. Amplification rapide des extrémités d'ADNc 5 ’(5'-RACE). Protocoles CSH 2006.

De plus, l ' article wikipedia correspondant vous donne plus de détails sur ce qui se passe à chaque étape, mais attention, il y a une erreur: c'est dit que pour la 5'RACE, la terminale transférase ajoute la queue homopolymère en 3 'alors qu'elle l'ajoute en 5'

-1: cela peut être une bonne approche pour voir les limites d'un ORF (pour être honnête, vous n'avez pas toujours besoin d'un RACE, une simple PCR peut aussi fonctionner), pas d'un gène. Qu'en est-il des éléments promoteurs et réglementaires? Aussi, quel est l'avantage par rapport, par exemple, à une approche bioinformatique après séquençage?
@nico: donc, avec la définition que vous fournissez, un gène n'a pas de frontières.
@nico: Ok, je comprends votre point de vue, mais je ne pense pas que l'OP avait cette définition d'un gène à l'esprit. De plus, je suis tout à fait d'accord pour dire que les nouvelles technologies telles que RNA-seq vous donnent une réponse plus complète pour l'annotation du génome.
nous pouvons discuter pendant des heures de la définition correcte d'un gène, mais je ne pense pas qu'il y ait beaucoup à discuter sur le fait que le promoteur fait partie d'un gène. Et par rétrotranscription de l'ARNm, vous n'obtenez pas le promoteur.
#2
+8
Gergana Vandova
2011-12-20 00:20:29 UTC
view on stackexchange narkive permalink

Il existe différents logiciels dans lesquels vous pouvez entrer votre séquence (disons toute la séquence du génome) et il peut identifier pour vous les cadres de lecture ouverts putatifs (ORF), c'est-à-dire les codons de départ et les codons d'arrêt. Ensuite, en utilisant ces gènes putatifs, vous pouvez effectuer un alignement de séquence en utilisant BLAST et ensuite, en vous basant sur les scores, vous pouvez confirmer que ce sont vraiment des ORF. Comme il s'agit de l'approche statistique, vous pouvez ensuite vérifier vos résultats dans le laboratoire humide, comme le suggère agrimaldi.

Mais * comment * ces logiciels déterminent-ils les limites des gènes? Que recherchent-ils qui indique une frontière de gène?
Peut-être qu'une autre question devrait être posée spécifiquement sur les techniques programmatiques utilisées? Peut-être avec une balise bioinformatique.
@RichardSmith Ils recherchent essentiellement des codons de départ (ATG, GTG) qui définissent le début du cadre de lecture ouvert (ORF) et des codons d'arrêt (TAG, TAA, TGA), qui définissent la fin de l'ORF, et vérifient également si le le nombre de bases entre le codon de départ et le codon d'arrêt est divisible de 3.
@ghchinoy Oui, cela pourrait être intéressant, mais je ne pense pas que ce soit plus compliqué que ce que j'ai déjà expliqué à Richard. Vous pouvez bien sûr ajouter quelques "vérifications" supplémentaires que le logiciel peut faire, comme la longueur de l'ORF.
#3
+6
KAM
2011-12-24 18:28:09 UTC
view on stackexchange narkive permalink

Si votre objectif est de définir les limites de l'unité de transcription (la partie de l'ADN qui est transcrite), la réponse ci-dessus est exacte, bien que beaucoup de gens utilisent simplement l'homologie avec les ADNc clonés plutôt que les réactions RACE. Cette approche a l'avantage de définir des formes d'épissage alternatives en même temps.

Si votre objectif est de définir les "extrémités" du gène, cela ne peut être fait que de manière empirique et fonctionnelle car les éléments de contrôle (frontières, Enhancers, etc.) sont impossibles à reconnaître en utilisant l'informatique, et même si l'on trouve des enhancers, il n'est pas certain que ces enhancers soient utilisés avec des gènes spécifiques. Certains gènes peuvent avoir une longueur de millions de paires de bases, donc des centaines d’autres gènes sont intercalés. Le "gold standard" pour définir les limites des gènes est de sauver le phénotype de perte de fonction d'une mutation avec un transgène qui contient le gène d'intérêt. Si l'ADN qui est reconverti en un organisme peut récupérer l'état de type sauvage d'une mutation d'un gène, on suppose que toutes les parties importantes de ce gène se trouvent dans le transgène.

#4
+3
AnnaF
2011-12-19 23:04:57 UTC
view on stackexchange narkive permalink

De manière générale, vous séquencez le génome, puis recherchez des indices. Il existe généralement des séquences spécifiques précédant un gène qui aident l'équipement de traduction à savoir «bonjour c'est ici que nous commençons», ainsi que des régions où les protéines peuvent se lier et qui sont utilisées pour améliorer ou inhiber la traduction du gène.

Ordinateurs peut être programmé pour rechercher dans la séquence et faire apparaître des candidats potentiels que les gens pourront examiner de plus près.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...