PDB et dictionnaires de ligands

3. Dictionnaire BIRD

Si nous reprenons le composé 01S, nous constatons qu’il a disparu, dans les fichiers SMILES, nous passons directement au 01T :

Alors que 01S est présent dans une recherche via l’interface Web de la PDB, ou directement via [ https://www.rcsb.org/ligand/01S ] avec les mêmes informations que les autres ligands.

Si nous portons attention à quelques produits qui provoquaient des erreurs dans pdb.hcd nous avons :

01S 0D3 0PK
N-[(2R)-2-(hydroxycarbamoyl)-4-methylpentanoyl]-L-alanylglycinamide N-[(2S)-2-benzyl-3-sulfanylpropanoyl]-L-alanylglycinamide CBZ-PHE-P-LEU-ALA (ZFPLA)
PEPTIDE-LIKE PEPTIDE-LIKE PEPTIDE-LIKE
PRD_000230 PRD_000232 PRD_000656

Nous constatons qu’il s’agit de molécules marquées comme analogues de peptides et qui apparaissent dans un autre dictionnaire. Par exemple pour 01S, nous avons la mention : 01S/PRD_000230 is described in the Biologically Interesting Molecule Reference Dictionary (BIRD).

The Biologically Interesting molecule Reference Dictionary (BIRD) contains information about certain biologically interesting molecules in the PDB archive such as peptide-like antibiotics, peptide-like inhibitors, and common oligosaccharides.

Il est possible de télécharger l’ensemble de cette base, qui est organisée en famille et produits, sous la forme de 5 fichiers tar.gz: family-all.cif.gz, family-split.tarf.gzprdcc-all.cif.gz, prdcc-split.tarf.gz, prd-all.cif.gz, prd-split.tarf.gz.  Les fichiers -split correspondent à une arborescence ou nous avons un fichier au format CIF pour chaque composé. Le contenu de ce type de fichier est décrit dans la documentation de BIRD.

Une entrée BIRD/pdb.ccd mixte

Si nous prenons le cas de nos trois molécules précédentes, nous les trouvons dans le fichier prd-all.cif/prd-all.cif ou dans le répertoire prd-split.tar/data/rcsb/update_service/data/bird-v1/prd-tmp-split. Pour 01S nous avons un fichier PRD_000230.cif typique :

Nous y trouvons une pseudo séquence 'HMI ALA GLY NH2' ou HMI est un code de résidu non standard, et d’autres informations. Mais nous n’y trouvons pas de coordonnée moléculaires, ni de chaines SMILES/InChI car le composé est déjà indexé ailleurs sous la référence 01S. Et nous retrouvons cette référence au début du fichier CIF dans le champ _pdbx_reference_molecule.chem_comp_id.

Il est donc possible, pour ce type de molécules de faire la correspondance BIRD et pdb.dcc. Par contre, ces molécules seront absentes de la branche prdcc.

Une entrée BIRD unique

Il existe aussi des entrées BIRD, qui ne sont pas incluses dans l’espace pdb.ccd. Si nous prenons la première entrée PRD_000001 qui correspond à l’actinomycine D, un anticancéreux, nous obtenons un entête sans correspondance avec un nom de résidu à trois lettres :

Effectivement le champ .chem_comp_id n’est pas renseigné. Cette molécule apparaît dans la structure 1A7Y qui correspond au cristal de l’actinomycine D seule, sans référence à un identifiant de composé au sens pdb.ccd. Il en est de même pour la structure 173D qui correspond à un complexe entre la molécule et un oligonucléotide sous forme double brin.

Si on s’intéresse à la branche prdcc, nous avons l’actinomycine D dans prdcc-all.cif/prdcc-rel.cif avec des blocs de coordonnées moléculaires et de connectivité, qui n’apparaissaient pas pour 01S :

Le format ressemble au format PDB mais est différent, déjà il n’y a pas de nom de résidu pour la molécule entière. Celle ci étant, en partie, composée d’acides aminés (et dérivés), nous trouvons dans des colonnes à droite, une reprise des données PDB pour la ‘chaine polypeptidique’ composée des résidus : THR1, DVA2, PRO3, SAR4, MVA5, PXZ6, THR7, DVA8, PRO9, SAR10, MVA11.

Pour vous y retrouver, il faut lire l’article de Wikipédia avec le schéma (à droite) qui compte :

L’actinocine (1) est le chromophore central (2-AMINO-1,9-DICARBONYL-4,6-DIMETHYL-10-DEHYDRO-PHENOXAZIN-3-ONE). C’est une phenoxazinone, ce qui explique le nom de résidu PXZ. Quand on dispose d’un catalogue de résidus étendus de la PDB, nous retrouvons DVA : D-VALINE, SAR: SARCOSINE, MVA: N-METHYL VALINE. A noter que dans les structures PDB, les résidus MVA et SAR sont mentionnés en tant que peptide linkers, et non comme des dérivés d’acides aminés.

Enfin, nous avons aussi la formule développée aux formats SMILES/InChI en fin de fichier CIF ce qui nous permettra de récupérer la structure chimique de l’ensemble, au lieu de la déduire de la séquence, qui n’est pas évidente.

En l’état l’utilisation de BIRD questionne, en particulier si nous la voyons d’un point de vue purement chimique et si nous avons l’intention de la fusionner avec d’autres collections de molécules. Il faudra programmer un parseur CIF adapté, soit simplifié, soit en utilisant un toolkit (OpenBabel lit le CIF, mmCIF), ce qui n’est pas impossible mais ajoute une couche de complexité.

Liens et lectures
Retour en haut