Importance des majuscules, minuscules et N dans les fichiers ADN UCSC

Question:

Importance des majuscules, minuscules et N dans les fichiers ADN UCSC

Failed Scientist

2016-04-16 08:47:12 UTC

view on stackexchange narkive permalink

J'ai téléchargé les données du chromosome humain depuis UCSC FTP. Une partie est en petits alphabets et d'autres en grands alphabets. Affiche-t-il la région codante et non codante?

Voici un exemple du fichier que je viens de télécharger:

La deuxième chose étrange est de le voir commencer par une séquence comme NNNN. Comme ici il est:

>chrX NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNctaaccctaaccctaaccctaaccctaaccctaaccctCTGaaagtggacctatcagcaggatgtgggtgggagcagattagagaataaaagcagactgc

La question est donc deux fois:

Quelle est la différence entre les majuscules et les minuscules dans les séquences de nucléotides fasta?
Que signifient les caractères N répétitifs?

Sur la page Web que vous avez liée, il y a un fichier nommé [README.txt] (ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/README.txt). Je vous suggère de le lire.

@mdperry je l'ai fait. Mais il n'a rien à voir avec ces N et minuscules / majuscules

"Les répétitions de RepeatMasker et Tandem Repeats Finder (avec une période de 12 ou moins) sont affichées en minuscules; la séquence non répétitive est affichée en majuscules." Il s'agit du passage pertinent dans le fichier README.txt. Comme décrit dans l'une des réponses, dans le tableau des symboles IUPAC pour faire référence aux bases nucléotidiques, où les plus courantes sont ACGT et U (généralement dans l'ARN), le symbole `` N '' est utilisé pour représenter une base dans un motif de séquence modèle où l'un des 4 peut être trouvé, OU dans une séquence de séquençage, une position de base où la base réelle ne peut pas être déterminée sans ambiguïté.

Quatre réponses:

Ann L

2016-04-16 11:32:25 UTC

view on stackexchange narkive permalink

Les lettres minuscules indiquent les régions masquées par répétition. Les N représentent des lacunes.

Voir: https://groups.google.com/a/soe.ucsc.edu/d/msg/genome/S4Sx8UdJAwM/tLTpVVzdhFMJ

Comment le nombre de N est-il déterminé?

D'après mon expérience, une série de N, comme 30 ou 50 ou 100, indiquait un écart entre deux contigs mappés, mais de nos jours, avec les séquenceurs NGS, je pense qu'ils représentent généralement une base qui ne pouvait pas être déterminée sans ambiguïté, et donc pour aux fins de la mesure de la longueur, nous connaissons le nombre de bases dans le fragment, mais pas la séquence réelle de chaque base.

David

2016-04-17 22:28:48 UTC

view on stackexchange narkive permalink

Les fichiers de téléchargement FTP sont documentés sur le site UCSC (à partir duquel ils peuvent également être téléchargés à partir d'un navigateur Web). La page consacrée au génome humain est http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/. Je ne sais pas quels fichiers vous avez téléchargés, mais je cite trois des descriptions:

hg38.2bit - contient la séquence complète du génome humain / hg38 au format de fichier 2 bits. Les répétitions de RepeatMasker et Tandem Repeats Finder (avec une période de 12 ou moins) sont affichées en minuscules; la séquence non répétitive est affichée en majuscules.

hg38.fa.gz - Séquence d'assemblage "à masque souple" dans un fichier. Les répétitions de RepeatMasker et Tandem Repeats Finder (avec une période de 12 ou moins) sont affichées en minuscules; la séquence non répétitive est affichée en majuscules.

hg38.fa.masked.gz - Séquence d'assemblage "masquée en dur" dans un fichier. Les répétitions sont masquées par N majuscules; la séquence non répétitive est indiquée en majuscules.

Il semblerait que le nombre de Ns corresponde au nombre (peut-être une estimation) de bases dont l'identité n'est pas connue. Ceci est suggéré par ce qui suit sur la page FAQ générale des téléchargements à https://genome.ucsc.edu/FAQ/FAQdownloads.html.

N caractères au début de human chr22

Question: "Lorsque je télécharge human chr22 à partir de votre site Web, le fichier décompressé ne contient que des N."

Réponse: Il y a un gros bloc de N au début et à la fin de chr22. Recherchez un A pour contourner le groupe initial de N.

Différence entre les fichiers UCSC et GenBank

Si vous téléchargez les données du chromosome humain de GenBank, vous ne trouverez pas les caractères minuscules (c'est-à-dire qu'ils ne sont pas une fonction standard). La raison pour laquelle ils se trouvent dans les fichiers UCSC est que ces fichiers sont ceux utilisés dans leur navigateur de génome, qui affiche ces répétitions, comme illustré ci-dessous.

Ram RS

2016-04-16 09:22:24 UTC

view on stackexchange narkive permalink

Les séquences en majuscules sont généralement des régions d'intérêt, telles que les exons. N dans l'alphabet ADN fait référence à un "nucléotide inconnu". Il peut faire référence à n'importe quel A / T / C / G lorsque la base sous-jacente réelle est inconnue.

mdperry

2016-04-17 20:36:52 UTC

view on stackexchange narkive permalink

Le tableau des symboles de la nomenclature IUPAC pour les séquences nucléotidiques d'ARN et d'ADN (via Wikipedia)

ⓘ

Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.

À propos - jargon juridique

Loading...