Question:
Comment puis-je trouver un fichier complet du génome humain
ABCD.ca
2014-10-01 22:44:06 UTC
view on stackexchange narkive permalink

J'essaie de comprendre comment je peux télécharger un fichier qui représente la séquence complète d'ADN humain. Je ne me soucie pas trop du format - je suis capable d'écrire du code C ++ pour l'analyser. FASTA semble cependant être un format simple. Ce que je n'ai pas encore compris, c'est où je peux trouver un fichier complet - j'ai trouvé ce qui semble être des sous-ensembles de gènes ou d'autres séquences ou des chromosomes uniques, mais n'y a-t-il pas 46 chromosomes à inclure ou sont certains de ces doublons (c.-à-d. 22 chromosomes + 2 chromosomes sexuels)?

Sur cette page, j'ai trouvé cette liste de fichiers sous "Humain> Assemblage du génome: GRCh38" mais il semble être décomposé par chromosome ou quelque chose? Si oui, est-ce que je les fusionnerais? Mon objectif est d'afficher toutes les lettres via un projecteur sur un mur et je veux pouvoir le pointer et dire à quelqu'un, c'est tout l'ADN d'un humain (pas un sous-ensemble). Aussi, pour vérifier, c'est un "assemblage génomique" que je veux non? Soit dit en passant, je ne me soucie pas des variantes d'allèles pour le moment.

Veuillez considérer dans votre réponse que je ne connais pas une grande partie du jargon, merci.

Merci pour toutes les bonnes réponses! Ils m'ont en fait tous été utiles.
Cinq réponses:
user9474
2014-10-01 23:06:35 UTC
view on stackexchange narkive permalink

Le Centre national d'information sur la biotechnologie a un lien vers un site FTP sur les génomes - sur cette page, il y a un fichier intitulé ... / genomes / H_sapiens un lien direct vers ce répertoire).

Il contient de nombreux fichiers. À partir du fichier README:

Les données de séquence incluent les chromosomes, les contigs, les ARN et les protéines générés par les projets NCBI Reference Sequence et NCBI Genome Annotation. Les données cartographiques présentées dans la ressource Map Viewer sont également fournies ici.

Seulement environ 770M? Je m'attendais à ce que ce soit plus grand
Ar3s
2014-10-02 04:47:44 UTC
view on stackexchange narkive permalink

Un non-biologiste intervient ici.

@ swbarnes2 a un bon point d'épingler le fait que (environ) 3giga nucléotides à afficher "sur un mur" (comme vous le dites) même avec un bon projecteur est va être une tâche difficile.Vous aurez besoin de plusieurs projecteurs et d'un sacré grand mur. (disons que vous prenez le plus petit paramètre de police lisible que vous aurez chaque lettre prendre un espace de 4 * 6 pixels qui pour l'ensemble vous apportera à ~ [227k x 342k] pixels donc environ 35k projecteurs HD)

Ce qui m'a amené à penser pourquoi vous voudriez faire une telle chose. Le plus plausible est: c'est pour une sorte Dans ce cas, plutôt que d'afficher des lettres (ATGC), je recommande de l'encoder en binaire (00,01,10,11) et de créer ce code de valeur pour un pixel coloré.

Cela vous laissera avec une matrice carrée d'environ 57k pixels de bord (ce qui reste énorme) d'ombres en 4 tons de points noirs à blancs.

Si vous voulez aller encore plus loin, la trichromie est à la rescousse, don ne pas créer de code de pixels pour un seul noyau Éotide chacun.Faites-leur coder pour un "pseudo-codon" (triplet) chacun. Premier nucléotide définissant la nuance rouge, Deuxième nucléotide définissant la nuance verte, dernier nucléotide définissant la nuance bleue. (truc RVB couleur additive simple et simple).

-EDIT-Sachant que la notion de codon est invalide et que tout nucléotide (à l'exception des deux premiers et deux derniers de chaque chromosome) pourrait faire partie de trois codons distincts (selon qu'ils se trouvent dans un intron, exon ou même alternativement épissé) nous voyons que ce regroupement par 3 n'est pas SI bon.

Dans ce cas, pourquoi ne pas prendre encore plus de libertés? Regroupez vos nucléides par 12 (3 groupes de 4) vous donnant plus de profondeur dans les nuances de couleurs.

-FIN DE LA SECTION MODIFIEE-

vous obtiendrez une matrice beaucoup plus jolie et nettement plus petite de [30k x 30k] (ce qui vous prendra quand même un gros mur et quelques projecteurs HD ~ 150 mais à ce stade, vous pouvez compresser la sortie avec plusieurs méthodes et obtenir des pixels fusionnés, mais 150 est bien moins que 35000).

Je sais que je n'apporte pas de solutions réelles à la question posée (mais je pense vraiment que @Omen l'a plutôt bien fait) mais j'ai senti qu'il y avait peut-être ici un aperçu qui valait la peine d'être donné (au risque de me ridiculiser)

Je pense qu'un affichage dynamique pourrait fonctionner, affichant des segments à la fois ...
J'ai également envisagé de conseiller d'avoir un affichage dynamique (pour économiser encore plus d'argent sur les projecteurs; p) mais cela semblait aller de soi ou hors de ce que je comprends être la portée requise. C'est comme afficher un livre entier, il faut envisager de l'afficher page par page, pas tout dans un bloc gonflé.
Un petit souci ... nous n'appelons généralement pas trois nucléotides ensemble un codon à moins qu'ils ne soient réellement dans la région codante d'un gène, et soient dans le cadre qui est réellement traduit. La majeure partie du génome ne serait pas dans les "codons".
Comme je l'ai dit dans mon message, je ne suis pas biologiste, je suis tout au plus un bio-passionné, mais c'est vrai. Si les nucléotides sont dans un intron (qui n'est pas interprété dans un épissage alternatif) alors oui, il ne fait pas partie d'un codon.Je modifierai mon message.Pourtant, dans le but que j'ai décrit, il peut toujours faire partie d'un non-sémantique triolet. Après tout, si l'hypothèse que j'ai énoncée est juste, alors regrouper les nucléétides par n'importe quel nombre, de quelque manière que ce soit (tant qu'ils sont consécutifs) n'aurait pas vraiment d'importance car ce ne sera plus pertinent. L'ADN en lui-même n'est pas SI pertinent, c'est la façon dont il sera transcrit.
Merci, c'est ma réponse préférée car elle va au cœur de la façon dont je veux utiliser les données. J'en ai marqué une autre comme la réponse la plus directe à ce que j'ai demandé. Je suppose que j'avais quelques questions en une.
Pas de problème, content de pouvoir être d'une quelconque aide (même vague).
swbarnes2
2014-10-02 02:48:18 UTC
view on stackexchange narkive permalink

mais n'y a-t-il pas 46 chromosomes à inclure ou certains de ces doublons

Tout d'abord, alors que chaque personne a 2 copies de chaque chromosome, ces copies sont 99 % identique. Ce serait donc un gaspillage de répéter tout cela deux fois.

Deuxièmement, la technologie est telle qu'il n'est pas facile de générer, disons, toute la séquence d'un chromosome qui provient de leur mère. Vous obtenez soit des traces sanger qui montrent les deux séquences superposées l'une sur l'autre, soit des lectures très courtes qui ne sont pas mélangées, mais vous ne pouvez pas dire quel parent a généré quel fragment.

Donc en général, un génome de référence n'aura qu'une lettre de consensus à chaque poste, même si ce n'est pas biologiquement réaliste. Peu importe la référence, tant que tout le monde sait que ce n'est qu'une référence.

Mon objectif est d'afficher toutes les lettres via un projecteur sur un mur et je veux être capable de le pointer et de dire à quelqu'un, c'est tout l'ADN d'un humain (pas un sous-ensemble).

Pouvez-vous vraiment afficher 3 milliards de caractères comme ça?

«Pouvez-vous vraiment afficher 3 milliards de caractères comme ça?» Non: en supposant qu'un caractère mesure environ 0,03 pouce carré (environ 12 pt), il faudrait 14,35 acres de mur pour afficher 3 milliards de caractères.
Pour nous lecteurs "métriques" qui nous nous demandons, 14,35 acres ~ = 58072 m² qui à son tour représentent un peu plus de 5 "grands" terrains de football (coupes internationales).
Luke Griffiths
2014-10-02 04:20:56 UTC
view on stackexchange narkive permalink

Si je comprends bien votre question, vous voulez un seul fichier, c'est-à-dire une seule chaîne, qui représente la séquence d'un génome humain entier. Cependant, une telle chose n'existe pas. Le génome humain est stocké dans 46 chaînes différentes (chromosome), et ces chaînes n'ont aucun ordre naturel .

Les nombres utilisés pour désigner les génomes sont basés sur leur ordre lorsqu'ils sont classés par taille.

Toutes les opérations sur le génome (comme le copier avant la mitose) se produisent en parallèle, les protéines opérant sur chaque chromosome individuellement.

Si vous voulez représenter un génome humain entier "honnêtement", je dirais que votre meilleur pari est de mettre 46 chaînes séparées sur le projecteur, peut-être en parallèle les unes aux autres comme le code dans la matrice.

Si vous voulez afficher une grande et longue chaîne, toute séquence de concaténation est aussi (in) correcte que toute autre, alors ouvrez simplement les fichiers par ordre alphabétique et concaténez-les tous.

WYSIWYG
2014-10-02 15:07:16 UTC
view on stackexchange narkive permalink

Si vous souhaitez fusionner toutes les séquences en une seule séquence, téléchargez la séquence de tous les chromosomes et concaténez-les. Commande simple pour cela si vous utilisez Linux:

grep -v ">" chromosome * .fa > whole_genome.txt

Maintenant, il est logique de séparer le génome chromosomique car il n'y a pas de connexion physique entre un chromosome et l'autre. De plus, il existe de nombreux ordres par lesquels vous pouvez concaténer les chromosomes ensemble, ce qui vous donnera 23! le nombre de séquences génomiques.

Maintenant, vous devriez noter que tout cela peut vous donner de sérieuses erreurs si vous essayez d'étudier le contexte génomique de n'importe quel gène. Alors mieux vaut aller au niveau des chromosomes.

Si je vous ai mal interprété et que vous vouliez dire avoir toutes les séquences de fasta chromosomiques dans un seul fichier, sans toutefois fusionner les séquences, alors c'est une commande assez simple.

chromosome de chat * .fa > genome.fa

Maintenant, ce que vous téléchargez est une séquence de référence. Vous devez trouver des variantes, etc. pour vos données en contrôlant vos paramètres d'alignement.

Et je ne comprends vraiment pas pourquoi vous voulez les projeter sur le mur. Il existe des moyens plus simples et meilleurs d'analyser le génome.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...