Les fichiers de téléchargement FTP sont documentés sur le site UCSC (à partir duquel ils peuvent également être téléchargés à partir d'un navigateur Web). La page consacrée au génome humain est http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/. Je ne sais pas quels fichiers vous avez téléchargés, mais je cite trois des descriptions:
hg38.2bit - contient la séquence complète du génome humain / hg38 au format de fichier 2 bits. Les répétitions de RepeatMasker et Tandem Repeats Finder (avec une période de 12 ou moins) sont affichées en minuscules; la séquence non répétitive est affichée en majuscules.
hg38.fa.gz - Séquence d'assemblage "à masque souple" dans un fichier. Les répétitions de RepeatMasker et Tandem Repeats Finder (avec une période de 12 ou moins) sont affichées en minuscules; la séquence non répétitive est affichée en majuscules.
hg38.fa.masked.gz - Séquence d'assemblage "masquée en dur" dans un fichier. Les répétitions sont masquées par N majuscules; la séquence non répétitive est indiquée en majuscules.
Il semblerait que le nombre de Ns corresponde au nombre (peut-être une estimation) de bases dont l'identité n'est pas connue. Ceci est suggéré par ce qui suit sur la page FAQ générale des téléchargements à https://genome.ucsc.edu/FAQ/FAQdownloads.html.
N caractères au début de human chr22
Question: "Lorsque je télécharge human chr22 à partir de votre site Web, le fichier décompressé ne contient que des N."
Réponse: Il y a un gros bloc de N au début et à la fin de chr22. Recherchez un A pour contourner le groupe initial de N.
Différence entre les fichiers UCSC et GenBank
Si vous téléchargez les données du chromosome humain de GenBank, vous ne trouverez pas les caractères minuscules (c'est-à-dire qu'ils ne sont pas une fonction standard). La raison pour laquelle ils se trouvent dans les fichiers UCSC est que ces fichiers sont ceux utilisés dans leur navigateur de génome, qui affiche ces répétitions, comme illustré ci-dessous.