Dans différents processus il est utile d’avoir une visibilité sur l’ensemble des ligands de la PDB. On parle de dictionnaires car il y a une correspondance entre l’identifiant du ligand, au sens de la PDB (3 caractères comme un résidu) et la formule développée du composé. La banque PDB mets à disposition ces catalogues [Westbrook_2015 – http://dx.doi.org/10.1093/bioinformatics/btu789] sous différents formats, principalement mmCIF (cristallographique) que nous n’utilisons pas. Mais d’autres options existent, il est possible d’obtenir les dictionnaires avec la partie chimique encodée en SMILES, InChI ou SDF.
En 2025, la ressource Ligand Expo (HET Compounds Dictionary, pdb.hcd) qui nous permettait de télécharger s’est arrêtée. Une transition est en place vers le dépôt PDB Chemical Component Dictionary (pdb.ccd dans ma nomenclature) disponible à [ https://www.wwpdb.org/data/ccd ] et nous allons examiner les possibilités fournies par cette ressource.
Publié en 2025 – Article mis à jour en Novembre 2025.
1. Au format SDF
Il s’agit du fichier components-pub.sdf, cette table SDF est valide (Chemaxon Marvin) et inclue deux champs : structure moléculaire et identifiant PDB en première ligne de chaque entrée (délimitées par une chaine $$$$). Par exemple, nous avons pour le TCL (triclosan) :
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
<span style="color: #ff0000;">TCL</span> CCTOOLS-0919241033 24 25 0 0 0 0 0 0 0 0999 V2000 -0.0650 1.0060 3.0500 C 0 0 0 0 0 -0.3270 -0.2130 3.6470 C 0 0 0 0 0 0.5850 1.0530 1.8270 C 0 0 0 0 0 ... -2.5530 0.0150 -4.1270 CL 0 0 0 0 0 2.6610 -0.2980 -2.7520 CL 0 0 0 0 0 0.8430 2.2510 1.2380 O 0 0 0 0 0 <span style="color: #0000ff;"> -0.3670 1.9220 3.5360 H 0 0 0 0 0</span> <span style="color: #0000ff;"> 1.0080 -2.2650 1.3240 H 0 0 0 0 0</span> <span style="color: #0000ff;"> -0.1470 -2.3380 3.4960 H 0 0 0 0 0</span> <span style="color: #0000ff;"> 0.2790 -0.2060 -4.3110 H 0 0 0 0 0</span> <span style="color: #0000ff;"> -2.7080 0.1700 -1.2890 H 0 0 0 0 0</span> <span style="color: #0000ff;"> -0.9640 0.1270 0.4460 H 0 0 0 0 0</span> <span style="color: #0000ff;"> 1.7120 2.5360 1.5530 H 0 0 0 0 0</span> 1 2 2 0 0 0 1 3 1 0 0 0 1 18 1 0 0 0 ... 11 22 1 0 0 0 12 23 1 0 0 0 17 24 1 0 0 0 M END $$$$ |
Nous notons que la structure est en 3D (les colonnes pour les coordonnées x, y, z ont des valeurs différentes de zéro) et qu’elle est hydrogénée. La structure 3D correspond à une structure optimisée, de type Ideal conformer (calculée) et non issue des structures PDB (Model conformer). Dans le cas du TCL, c’est facile à reconnaître, si le dichlorophényl est à gauche, le OH porté par l’autre cycle pointe vers derrière, alors que dans les structures PDB il est généralement vers l’avant (en interaction avec une tyrosine).
![]() |
![]() |
| Aperçu du fichier SDF (dernier ligand : ZZZ) | Structure 3D correspondant au TCL |
Au final nous avons un peu moins de 47000 composés à la date de révision de l’article.
Pour une utilisation ligand-based ou chémoinformatique, il faudra déshydrogéner, éventuellement passer en 2D, autant utiliser des dictionnaires au format SMILES.
Liens et lectures
- Ligand expo [ http://ligand-expo.rcsb.org/ ].
- [Westbrook_2015 – http://dx.doi.org/10.1093/bioinformatics/btu789] – Westbrook JD, Shao C, Feng Z, Zhuravleva M, Velankar S, Young J. The chemical component dictionary: complete descriptions of constituent molecules in experimentally determined 3D macromolecules in the Protein Data Bank (2015) Bioinformatics, 31:8, 1274–1278.
- PDB ligand TCL [ https://www.rcsb.org/ligand/TCL ].
- Macromolecular Crystallographic Information File (PDBx/mmCIF) [ https://en.wikipedia.org/wiki/Macromolecular_Crystallographic_Information_File ].

