PDB et dictionnaires de ligands

6. Conclusion

Nous avons donc différentes modalités pour obtenir des catalogues de ligands à partir de l’écosystème PDB, une activité qui diffère de la recherche avancée de ligands.

La table suivante liste quelques fichiers dictionnaires et les informations que l’on peut y trouver :

File RESNAME NAME FBRUTE STRUCT* NA MW N PDBs
components-pub.sdf X SDF(H)
components-smiles-*.smi X X SMILES*
components-inchi*.ich X X InChI / InChIKey*
prd-all.cif X X ? X
het_dictionary.txt X X X
cc-to-pdb.tdd X X
cc-counts-extra.tdd X X X X

Les colonnes correspondent à différents types d’informations :

  • RESNAME : identificateur de résidu à 3 lettres.
  • NAME : nom usuel (cf. triclosan) ou systématique (cf. 5-chloro-2-(2,4-dichlorophénoxy) phénol).
  • FBRUTE : formule brute (cf. C12H7Cl3O2).
  • STRUCT : structure chimique (formule développée 2D ou structure 3D) et si on a accès a des informations liées à la stéréochimie (*).
  • NA : le nombre d’atomes.
  • MW : masse molaire au sens de Molecular Weight (289.54 pour TCL) et non masse moléculaire exacte (287.951 pour TCL, masse calculée en fonction d’un jeu d’isotopes présents).
  • N : nombre d’occurrences du résidu dans l’ensemble de la base PDB.
  • PBBs : la liste des structures dans lesquelles le résidu apparaît.

Nous avons donc un schéma possible pour fusionner ces données en nous servant de RESNAME comme clé, et qui apparaît dans tous les cas de figure. Mais des questions se posent :

  • En vue d’une fusion, le nombre d’objets qui n’est pas le même dans les dictionnaires aux formats SMILES, InChI et SDF …
  • L’intégration entre les catalogues pdb.ccd et BIRD, certaines entrées de BIRD ne sont pas présentes dans le dictionnaire chimique alors qu’on peut les considérer comme des composés chimiques, même si ces molécules sont assimilables a des dérivés peptidiques ou analogues de peptides.
  • La liste des PDBs dans cc-to-pdb.tdd qui peut poser problème.

Une liste non exhaustive, nous voyons donc qu’un certain nombre de subtilités sont présentes dans les dictionnaires PDB. Une fusion de données, même menée à terme, ne sera peut être pas parfaite ou complète. Il en résulte que l’identification des ligands par leur nom dans un fichier PDB n’est pas la seule méthode à utiliser dans le cas d’une approche logicielle générique (par exemple un parseur PDB).

Retour en haut