PDB et dictionnaires de ligands

Dans différents processus il est utile d’avoir une visibilité sur l’ensemble des ligands de la PDB. On parle de dictionnaires car il y a une correspondance entre l’identifiant du ligand, au sens de la PDB (3 caractères comme un résidu) et la formule développée du composé. La banque PDB mets à disposition ces catalogues [Westbrook_2015 – http://dx.doi.org/10.1093/bioinformatics/btu789] sous différents formats, principalement mmCIF (cristallographique) que nous n’utilisons pas. Mais d’autres options existent, il est possible d’obtenir les dictionnaires avec la partie chimique encodée en SMILES, InChI ou SDF.
En 2025, la ressource Ligand Expo (HET Compounds Dictionary, pdb.hcd) qui nous permettait de télécharger s’est arrêtée. Une transition est en place vers le dépôt PDB Chemical Component Dictionary (pdb.ccd dans ma nomenclature) disponible à [ https://www.wwpdb.org/data/ccd ] et nous allons examiner les possibilités fournies par cette ressource.

Publié en 2025 – Article mis à jour en Novembre 2025.

1. Au format SDF

Il s’agit du fichier components-pub.sdf, cette table SDF est valide (Chemaxon Marvin) et inclue deux champs : structure moléculaire et identifiant PDB en première ligne de chaque entrée (délimitées par une chaine $$$$). Par exemple, nous avons pour le TCL (triclosan) :

Nous notons que la structure est en 3D (les colonnes pour les coordonnées x, y, z ont des valeurs différentes de zéro) et qu’elle est hydrogénée. La structure 3D correspond à une structure optimisée, de type Ideal conformer (calculée) et non issue des structures PDB (Model conformer). Dans le cas du TCL, c’est facile à reconnaître, si le dichlorophényl est à gauche, le OH porté par l’autre cycle pointe vers derrière, alors que dans les structures PDB il est généralement vers l’avant (en interaction avec une tyrosine).

Aperçu du fichier SDF (dernier ligand : ZZZ) Structure 3D correspondant au TCL

Au final nous avons un peu moins de 47000 composés à la date de révision de l’article.

Pour une utilisation ligand-based ou chémoinformatique, il faudra déshydrogéner, éventuellement passer en 2D, autant utiliser des dictionnaires au format SMILES.

Liens et lectures
Retour en haut