Je me demandais combien de protéines humaines ont une structure 3D résolue. Existe-t-il une base de données contenant uniquement des protéines humaines? J'ai regardé pdb mais je n'ai pas trouvé de filtre.
Je me demandais combien de protéines humaines ont une structure 3D résolue. Existe-t-il une base de données contenant uniquement des protéines humaines? J'ai regardé pdb mais je n'ai pas trouvé de filtre.
6405 protéines mappant sur 5220 gènes, selon Ensembl.
Dans le BioMart d'Ensembl, vous pouvez sélectionner l'ID PDB comme référence externe. Exportez les résultats et comptez les protéines / gènes uniques qui ont un ID PDB.
PDB est une bonne ressource pour répondre à ces questions, car elle vous permettra de filtrer les résultats par de nombreux paramètres supplémentaires. Pour compter et extraire les structures 3D de protéines humaines:
Avancé
du site Web PDB. Biologie
-> Organisme source
dans le menu. Homo sapiens (humain)
. Supprimer les séquences similaires à n% d'identité
ci-dessous. Pour ajouter d'autres filtres, cliquez sur Affiner la requête avec Recherche avancée
. Vous pouvez y extraire des structures par date de dépôt, qualité (par exemple, résolution ou facteurs R pour les structures résolues par diffraction des rayons X), ligands, classification enzymatique, etc. (en cochant Ajouter des critères de recherche
)
La recherche de protéines humaines avec élimination des homologues avec un seuil d'identité de 90% permet de récupérer 7117 structures. Le nombre de structures de protéines radiographiques de bonne qualité (résolution < 2.5A) est actuellement de 3964 (avec le même seuil d'identité).
Vous pouvez ensuite télécharger la liste récupérée ou créer des rapports personnalisés (menus ci-dessous).
Un bon outil (également utilisé par PDB) pour générer des ensembles de données protéiques non redondants est cd-hit.
D'après vos commentaires, il ne semble pas que vous soyez opposé à l'écriture de scripts personnalisés, donc une option serait de profiter de la base de données NCBI Structure. Vous pouvez le filtrer par organisme, puis télécharger les résultats sous forme de fichier texte / XML. Si vous avez besoin d'accéder aux données PDB brutes, vous pouvez alors télécharger l'archive PDB et examiner celles de votre liste filtrée.
Le nouveau système de recherche de PDBe est conçu pour répondre à ces questions. http://www.ebi.ac.uk/pdbe/entry/search/index?organism_synonymes:HUMAN&view=macromolecules
montre qu'il y a 6964 macromolécules humaines uniques avec des données de structure dans la PDB.
Bien sûr, beaucoup seront des fragments de protéines plutôt que la molécule entière.