Quels processus et méthodes statistiques sont utilisés par les généticiens / biologistes moléculaires pour savoir où un gène commence et où se termine?
Quels processus et méthodes statistiques sont utilisés par les généticiens / biologistes moléculaires pour savoir où un gène commence et où se termine?
Je ne connais qu'une seule approche naïve pour déterminer les limites d'un gène: la RACE-PCR. Il existe deux types, 3 'et 5' RACE, qui permettent de trouver les extrémités respectives.
Le raisonnement est le suivant:
Vous effectuez une marche arrière transcription du transcrit d'intérêt à l'aide d'une amorce spécifique. À cette étape, vous avez un ADNc simple brin spécifique.
Ensuite, vous ajoutez un tronçon de nucléotides identiques appelé queue homopolymère en 5 'de l'ADNc.
Enfin, vous effectuez une PCR en utilisant une amorce spécifique et une amorce universelle qui reconnaît la queue homopolymère. Vous pouvez séquencer votre ADNc amplifié et trouver où il se trouve dans le génome avec une résolution de 1 pb.
Pour la 3'RACE, le concept est le même mais la queue poly-A est utilisée au lieu de la générer soi-même avec le terminal transferase.
Voir cet article pour un protocole détaillé:
De plus, l ' article wikipedia correspondant vous donne plus de détails sur ce qui se passe à chaque étape, mais attention, il y a une erreur: c'est dit que pour la 5'RACE, la terminale transférase ajoute la queue homopolymère en 3 'alors qu'elle l'ajoute en 5'
Il existe différents logiciels dans lesquels vous pouvez entrer votre séquence (disons toute la séquence du génome) et il peut identifier pour vous les cadres de lecture ouverts putatifs (ORF), c'est-à-dire les codons de départ et les codons d'arrêt. Ensuite, en utilisant ces gènes putatifs, vous pouvez effectuer un alignement de séquence en utilisant BLAST et ensuite, en vous basant sur les scores, vous pouvez confirmer que ce sont vraiment des ORF. Comme il s'agit de l'approche statistique, vous pouvez ensuite vérifier vos résultats dans le laboratoire humide, comme le suggère agrimaldi.
Si votre objectif est de définir les limites de l'unité de transcription (la partie de l'ADN qui est transcrite), la réponse ci-dessus est exacte, bien que beaucoup de gens utilisent simplement l'homologie avec les ADNc clonés plutôt que les réactions RACE. Cette approche a l'avantage de définir des formes d'épissage alternatives en même temps.
Si votre objectif est de définir les "extrémités" du gène, cela ne peut être fait que de manière empirique et fonctionnelle car les éléments de contrôle (frontières, Enhancers, etc.) sont impossibles à reconnaître en utilisant l'informatique, et même si l'on trouve des enhancers, il n'est pas certain que ces enhancers soient utilisés avec des gènes spécifiques. Certains gènes peuvent avoir une longueur de millions de paires de bases, donc des centaines d’autres gènes sont intercalés. Le "gold standard" pour définir les limites des gènes est de sauver le phénotype de perte de fonction d'une mutation avec un transgène qui contient le gène d'intérêt. Si l'ADN qui est reconverti en un organisme peut récupérer l'état de type sauvage d'une mutation d'un gène, on suppose que toutes les parties importantes de ce gène se trouvent dans le transgène.
De manière générale, vous séquencez le génome, puis recherchez des indices. Il existe généralement des séquences spécifiques précédant un gène qui aident l'équipement de traduction à savoir «bonjour c'est ici que nous commençons», ainsi que des régions où les protéines peuvent se lier et qui sont utilisées pour améliorer ou inhiber la traduction du gène.
Ordinateurs peut être programmé pour rechercher dans la séquence et faire apparaître des candidats potentiels que les gens pourront examiner de plus près.