PDB et dictionnaires de ligands

2. Aux formats SMILES et InChI

Nous avons heureusement cette possibilité, chaque fichier correspond à un format CSV non annoté, délimité par des tabulations, constitué de 3 champs: formule développée, identifiant de résidu, nom commun ou nom type IUPAC (IUPAC pour International Union of Pure and Applied Chemistry).

Par exemple, pour le TCL (triclosan, 5-chloro-2-(2,4-dichlorophenoxy)phenol, 1P45 …) et le TCU (PT70, dérivé de triclosan, 2X22, 2X23 …) nous avons :

c1cc(c(cc1Cl)O)Oc2ccc(cc2Cl)Cl TCL triclosan
CCCCCCc1ccc(c(c1)O)Oc2ccccc2C TCU 5-hexyl-2-(2-methylphenoxy)phenol

Dans le troisième champ nous avons l’un ou l’autre des noms, en fonction de la molécule. Si on veut fusionner des données avec une systématique IUPAC, il faudra utiliser des outils pour compléter les entrées qui n’ont que les noms communs de molécules.

Nous avons 5 déclinaisons de fichiers et de formats pour les formules développées, bâtis sur le même principe :

Mais nous notons que les fichiers ne contiennent pas tous le même nombre d’objets ou de lignes, il faudra en tenir compte si on fusionne les données entre ces différentes sources.

Fichier Nombre apparent d’entrées
components-pub.sdf 46932
Components-smiles-stereo-oe.smi 47098
Components-smiles-oe.smi 47098
Components-smiles-stereo-cactvs.smi 47118
Components-smiles-cactvs.smi 47118

Différences avec pdb.hcd

Dans l’ancienne version pdb.hcd nous avions aussi des différences dans les fichiers, elles étaient essentiellement liées à des erreurs. Par exemple pour le composé 01S, nous avions :

Un examen attentif montre qu’il manque le saut de ligne entre les lignes 01R et 01S, parfois c’était un saut de ligne en trop. Pour d’autres, il manquait la chaine SMILES, par exemple pour 0D3 :

Pour la petite histoire, il y avait aussi les deux composés ‘inconnus’ UNL et UNX :

Les données ont  été revues dans pdb.ccd, il n’y a plus d’erreur de saut de ligne.

J’avais (forcément) un outil qui me permettait de détecter les erreurs dans pdb.hcd et il est tentant de prendre le catalogue d’erreurs et de voir ce qui a été corrigé. Par exemple le ligand GRP n’existait plus dans l’interface web, mais apparaît toujours dans les dictionnaires. Ceci dit, ceci peut s’expliquer, ce composé n’était pas présent dans un fichier PDB, il s’agit d’une vraie correction.

D’autres composés ont disparu, et nous allons voir qu’il ne s’agit pas d’erreurs.

nb: A la date d’édition de l’article, je n’ai pas encore réalisé un traitement qui me permettrait de faire un diagnostic complet en vue d’une fusion des données.

Liens et lectures
Retour en haut