PDB et dictionnaires de ligands

5. Dictionnaire Ligand-id vs. PDB-id

Le fichier cc-to-pdb.csvm qui est inclus dans buildez.pdb/data faisait la correspondance entre codes de résidus et structures PDB dans lesquelles ils étaient présents. Ce ficher est maintenant obsolète (il date de 2017), pour le TCL nous avions  la ligne :

TCL     4w9n 2b35 3p9t 3gr6 2wyw 1nhg 4nr0 3f4b 4m89 2qio 5ifl 3pjf 3pje 3pjd 3am3 3am5 1d8a 1d7o 1c14 2o2y 2o2s 1uh5 2pd3 4all 1qsg 3nrc 1p45 1qg6 3oid 3oif 4ali

Si on veut reproduire ces données, la source ligand expo [ http://ligand-expo.rcsb.org/ld-download.html ] n’existe plus. Pour trouver la correspondance entre composants chimiques et identificateur PDB, il faut utiliser des APIs de recherche, qui sont plutôt utiles pour une recherche ciblée.

Mais il existe encore un fichier cc-to-pdb (ligne Legacy tabulation of PDB entries containing each chemical component) que l’on peut télécharger à [ http://ligand-expo.rcsb.org/dictionaries/cc-to-pdb.tdd ] et qui est délimité par des tabulations. Si nous comparons la ligne TCL avec le fichier précédent nous avons 3 nouvelles entrées PDB (5YCS, 6AH9, 7FCM) à partir de 2017 et arrivées après 5IFL (2016) :

TCL     2o2s 4m89 1uh5 4nr0 3pjf 3pje 3pjd 6ah9 2o2y 5ycs 1p45 3oid 3oif 1qsg 2b35 2qio 3p9t 3nrc 3gr6 2wyw 1nhg 5ifl 3am3 3am5 1d8a 1qg6 1d7o 4w9n 2pd3 1c14 7fcm 4all 4ali

Il y a donc eu une mise à jour, mais si nous faisons une vérification à partir d’une recherche dans la PDB ou [ https://www.rcsb.org/ligand/TCL ] le système nous indique 34 structures PDB. Et dans la ligne issue de cc-to-pdb nous n’en comptons que 33. Il manque la structure 3F4B [Yu_2008] soumise en 2010 et correspondant à une Enoyl-acyl carrier protein reductase FABI (gène) de Plasmodium berghei [ https://www.uniprot.org/uniprotkb/Q6TEI5/ ]. Il y a eu un processus de révision en 2023 mais qui ne semble pas expliquer cette perte. Il arrive que des entrées PDB soient renommées et deviennent obsolètes, mais en principe on trouve ce type d’information d’une manière explicite, ce qui ne semble pas être le cas ici.

Donc nous voyons que sur une molécule d’intérêt, toute simple, nous avons quelques problèmes. Notons aussi que ce nouveau fichier cc-to-pdb inclue 43015 entrées, ce qui est à mettre en rapport avec les ~47000 objets des dictionnaires pdb.ccd précédents.

Liens et lectures
Retour en haut